您好, 访客   登录/注册

面向大数据处理的并行计算模型及性能优化

来源:用户上传      作者: 邹裕

  摘 要随着社会的不断进步以及科技的不断发展,人们更加容易的获得了大量的数据,数据信息在国民的工商业发展中起着越来越重要的作用,世界已经进入大数据时代。虽然海量的数据信息能被人们获取,但带来的问题就是人们不可能通过传统的处理数据信息的方法来处理得到的海量数据。为了减小人们从海量数据信息中获得有效信息得难度,研究者们近年来一直致力于处理海量数据的并行计算模型与并行计算模型的性能优化。笔者根据自己多年的实验经验对面向大数据处理的计算模型及其优化方法进行了详细分析,为同行提供一定的参考。
  【关键词】大数据处理 并行计算模型 性能优化 数据信息 海量数据
  1 引言
  虽然现在人们更加容易的获取数量量且形式多样的的数据,但是所获得的数据量过于巨大且有效信息相对于海量的数据所占比例太小。在实际应用中,人们通过传统的一些处理数据的方法来从这些海量数据中获取对自己有用的数据信息显然是不现实的。海量的数据对人们来说既是机遇又是挑战,利用好海量的数据,人们就能抓住事物的发展规律,获取更多的利益。为了处理得到的海量数据,人们需对处理大数据的传统的并行计算模型进行更加深入的研究,优化并行计算模型性能,提高人们处理海量数据信息的效率,使人们能够充分抓住大数据时代带给人们宝贵的机遇,充分发掘海量数据带给我们的每一份效益。
  2 面向大数据处理的计算模型分析
  2.1 模型概述
  随着电子信息与互联网技术的快速进步,对面向大数据的并行计算模型研究取得了长足的进展。并行计算模型主要用于帮助专业人员分析数据与处理数据,然而面对日益增长的海量的数据,传统的并行计算模型越来越显得力不从心,人们迫切需要性能更加优良的并行计算模型来处理这些数据。成熟的面向大数据的并行计算模型含有两大组成部分:
  (1)模型相关设备具体参数;
  (2)模型成本函数。
  这两方面的分析研究为面向大数据的并行计算模型的进一步发展奠定了理论基础。衡量面向大数据的并行计算模型的性能优劣衡量标准包括扩展性与容错性两方面,研究人员应该对这两因素划分精准的统一标准。目前人们提出的对计算模型进行优化一般只是指对某一系统或者某一计算模型的某些性能进行优化,比如减小数据存储空间,加快数据通讯等等,并没有公认的性能优化标准指标,面向大数据的并行计算模型性能优化必须提出统一的标准理论,设计出一种可以针对全部计算模型的优化方法。
  2.2 p-DOT模型分析
  p-DOT模型是以BPS模型为设计蓝本,由三个层次组成。
  第一层为数据层――D-layer。数据层分布结构为分布式,数据存储位置为各个数据节点。
  第二层为计算层――O-layer。在并行计算模型中的某一个运行阶段,系统内全部节点同时对数据进行分析处理,并且每个节点之间没有相互联系,互不干扰。开始阶段人为输入的数据以及运行过程中系统产生的新的数据都是节点处理数据的来源。各个节点处理完数据后立即存储在并行计算模型内。
  最后一层为通信层――T-layer。在并行计算模型中的某一个运行阶段,系统内节点在处理分析数据过程中会产生数据处理中间结果,进而产生了大量的数据消息,这些数据消息全部是通过通信操作子以点对点的方式在计算模型内进行传输的。通信操作子将这些数据消息传送到数据处理的下一个阶段。这样的数据处理过程也就是上一阶段的数据处理结果是下一阶段数据处理的输入数据。假如两阶段之间没有实现通信或者说某阶段处理完数据后不存在数据处理的下一个阶段,那么最后的处理数据就是我们得到的数据处理的最终结果。
  3 基于计算模型的性能优化方法分析
  3.1 D-layer的优化
  在数据处理过程中,操作人员有可能会操作失误或者系统稳定性并不是很好,在这种情况下很容易造成数据信息大量丢失。为了提高系统的容错率,专业人员都要对数据进行定期备份,并且为了保险起见一般数据的备份量不会少于三份,并且这些数据备份不会储藏在同一地方。一旦数据层出现数据丢失情况,这些备份就会拿来进行数据恢复。在数据备份的过程中,专业人员可以将每个数据块的备份储存在相应的节点;在机架数目众多的情况下,单个机架一般能够储存单个数据块的单个备份。这种数据备份储存方式大大提高了系统的容错率。
  3.2 O-layer的优化
  随着社会的不断进步以及科技的不断发展,人们对处理大数据的效率提出了更高的标准。一般的系统为了进一步提高数据处理的效率,都会默认支持系统的一些横向扩展。目前多核处理器的应用变得越来越普及,计算模型的数据处理效率越来越强,对高性能硬件的利用率越来越高。传统的并行计算模型内部依赖进程进行通信,经过性能优化以后的并行计算模型则是依赖线程进行通信,显著提高了模型的运算效率。
  3.3 T-layer的优化
  模型的通信性能也是影响并行计算模型运算效率的一个重要因素。系统的每一次迭代处理都会消耗系统大量的通信开销,为了优化传统并行计算模型的通信性能,专业人员需对模型进行不间断的更新优化。假如系统中运行的机器数目庞大,为了完成数据运算,系统中的每一台机器都需要进行数据运算与参数同步,系统的数据处理效率不是取决于运行速度快的机器,而是取决于运行速度慢的机器,这就是数据处理的短板效应。为了尽量减小数据处理的短板效应,专业人员需对运算性能较差的机器进行升级或者更换,优化并行计算模型。
  4 结语
  目前,随着世界经济的高速发展以及信息技术的不断进步,人们已经进入了大数据时代。在这个数据就是机遇与财富的年代,传统的数据处理模型已经远远不能够满足人们对海量数据处理效率的需求,优化并行计算模型在一定程度上能提高人们对海量数据的处理效率。在本文中,笔者通过自己多年的教学实验经验笔者对面向大数据处理的计算模型及其优化方法进行了详细的分析与研究,具有一定的参考价值。
  参考文献
  [1]覃雄派,王会举.大数据分析――RDBMS与M apR educe的竞争与共生[J].软件学报,2012,23(1).
  [2]程果,景宁.栅格数据处理中邻域型算法的并行优化方法[J].国防科技大学学报,2012,34(4).
  [3]潘巍,李战怀.大数据环境下并行计算模型的研究进展[J].华东师范大学学报(自然科学版),2014(5).
  [4]张延松,焦敏.海量数据分析的O ne-size-fits-allO LAP技术[J].计算机学报,2011,34(10).
  [5]董新华,李瑞轩.H adoop系统性能优化与功能增强综述[J].计算机研究与发展,2013(5).
转载注明来源:https://www.xzbu.com/1/view-7480600.htm