周一至周五
9:00—22:00
    
      联系电话:400-037-0800

物联网环境下基于上下文的Hadoop大数据处理系统模型

杂志之家论文发表、写作服务和杂志订阅支持对公帐户付款!安全又可靠!


申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。

 

  摘要:针对物联网环境下异构大数据处理实时性低的问题,探讨了基于Hadoop框架实现数据处理与持久化的方法,提出了一种基于“上下文”的Hadoop大数据处理系统模型HDS,HDS利用Hadoop框架完成数据并行处理与持久化,将物联网环境下异构数据抽象为“上下文”作为HDS处理对象;并提出了“上下文距离”“上下文邻域系统(CNS)”的定义;对于Hadoop框架本身数据处理实时性不高的问题,HDS在设计上增加了“上下文队列(CQ)”作为辅助存储来提高数据处理实时性;利用“上下文”的时空特性,建立了用户请求“上下文邻域系统”对任务进行重组。以成品油配送车辆调度问题为例,利用MapReduce并行实验对HDS的数据处理与实时性能进行了验证与分析。实验结果表明,在物联网环境下,HDS不仅在大数据处理性能上较传统单点处理模型(SDS)具有明显优势,在实验环境中10台服务器的情况下,其计算性能能够超过SDS 200倍以上;同时也验证了CQ作为辅助存储能够有效提高数据处理实时性,在10台服务器环境下,其数据处理实时性能够提高270倍以上。
中国论文网 /8/view-11912671.htm
  关键词:大数据;物联网;Hadoop;上下文邻域系统;上下文队列
  中图分类号: TP302.1 文献标志码:A
  Abstract:In order to solve problems that heterogeneous big data processing has low realtime response capability in Internet Of Things (IOT), data processinging and persistence schemes based on Hadoop were analyzed. A model of Hadoop big data processing system model based on "Context" named as HDS (Hadoop big Data processing System) was proposed. This model used Hadoop framework to complete data parallel process and persistence. Heterogeneous data were abstracted as "Context" which are the unified objects processed in HDS. Definitions of "Context Distance" and "Context Neighborhood System (CNS)" were proposed based on the "temporalspatial" characteristics of "Context". "Context Queue (CQ)" was designed as an assistance storage so as to overcome defect of low realtime data processing response capability in Hadoop framework. Especially, based on temporal and spatial characteristics of context, optimization of task reorganizing in client requests CQ was introduced in detail. Finally, taken problem of vehicle scheduling in petroleum products distribution as an example, performance of data processing and realtime response capability were tested by MapReduce distributed parallel computing experiments. The experimental results show that compared with ordinary computing system SDS (Single Data processing System), HDS is not only of obviously excellence in big data processing capability but also can effectively overcome defect of low realtime data processing response of Hadoop. In 10server experimental environment, the difference of data processinging capability between HDS and SDS is more than 200 times; the difference between HDS with and without assistance of CQ for realtime data processing response capability is more than 270 times.
  Key words: big data; Internet Of Things (IOT); Hadoop; Context Neighborhood System (CNS); contextqueue
  0 引言
  物联网是指通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换与通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。数据是物联网应用的核心内容,能否对其进行有效管理是制约物联网发展的主要问题之一。物联网数据信息主要包括对象信息、感知设备信息和实时信息3类,其中前两类属于基本信息,采用传统数据共享处理方式即可解决;而实时信息既具备传统大数据所具备的数据量大、实时性高的特点,同时也具有物联网信息特有的特征:数据异构性明显、关联复杂、数据增长快、交换和查询频率高[1]。由此,对物联网环境下实时大数据处理技术提出了更高的要求。   目前,已有大量对物联网环境下大数据处理的成功解决方案,其中Hadoop分布式系统架构就是其中应用最多的一种成熟解决方案。Hadoop是一个能够对大量数据进行分布式处理的软件框架,是具有高可靠性和良好扩展性的分布式系统。HDFS(Hadoop Distributed File System)分布式文件系统、Hadoop MapReduce分布式计算模型和HBase分布式数据库是其三大核心技术[1-2]。
  在现有研究成果中,文献[1-2]基于Hadoop框架,提出并设计了物联网环境下海量传感信息处理系统体系模型,模型具有较高数据处理性能,但没有解决物联网环境下的异构数据处理问题,而异构性是物联网环境下数据的主要特点之一,迫切需要建立统一的数据模型来对其进行管理。
  文献[3]结合Hadoop云计算平台,提出了一个面向Internet的具有高可靠性与高性能消息队列服务平台,能够在一定程度上解决Hadoop系统架构下数据复杂结构查询的局限性问题,但没有考虑数据查询中的实时性问题。
  在Hadoop数据处理过程中,MapReduce任务间的不同调度顺序将对任务完成时间产生极大影响,文献[4]对MapReduce作业调度算法进行了优化,提升了数据处理性能,但在算法的改进过程当中并没有考虑不同任务对数据块的重复读取操作对任务完成时间的影响。本文在文献[4]所提出算法的基础上,利用上下文的时空特性,在调度过程中对作业进行重组,在一定程度上提高了任务执行效率。
  基于现有研究成果无法有效处理物联网环境下大数据的异构性与数据处理实时性低的问题,本文提出一种物联网环境下基于上下文队列的Hadoop大数据处理系统模型HDS,将物联网环境下的大数据及用户请求都被统一抽象为 “上下文(Context)”数据模型,并将其作为HDS的主要数据处理对象;基于上下文的时空特性,提出了“上下文邻域系统(Context Neighborhood System, CNS)”的定义;同时,提出在HDS中引入“上下文队列”作为辅助存储来提高模型数据处理的实时性,并且基于上下文时空特性,通过BP_Adaboost算法,对“上下文”进行时空距离上的聚类,建立不同时空距离的“上下文邻域系统”,对相同系统中的作业进行重组优化[5-6]。
  1 “上下文”模型设计
  物联网环境中的实体包括在物联网中占有主导地位的“人”、具有计算处理功能的“机”以及物联网末端具有传感识别控制功能的“物”[7],不同实体传输的数据在结构上的异构性特点十分显著。为了对数据进行统一处理,对上层应用屏蔽数据异构性,需要对异构数据进行统一抽象与建模 [8-9]。本章将HDS中的服务请求及数据处理对象统一抽象为“上下文”模型,根据模型的时空特性提出了“上下文时空邻域系统”,及 “上下文”的存储模型。
  1.1 基于“上下文”的数据抽象模型
  物联网环境下数据信息主要包括被追踪实体对象的属性、状态、安全、事务处理等,为了将这些数据信息封装在统一数据模型中,提出了统一数据对象“上下文”(Context)模型:
  Context=(id; timesequence; postion; type; mode;
  processing; data; activity; quality; verification)
  其中:id为唯一性编号,除标识作用外还可用作数据回溯处理;timesequence为数据产生时间;position为数据源实体位置;type为实体类型;mode为数据获取方式,如:感知、输入、推理、验算、反馈等;processing为数据处理单元集合;activity为数据活跃度;data为数据主体,即所传输的数据信息;quality为数据质量系数,是0~1的参数;verification为数据完整性和正确性验证位,通过对模型中除verification之外的所有属性进行单向加密得到,即verification=fx(id, timesequence, position, type, mode, processing, activity, data, quality),其中fx为加密函数。
  由属性timesequence 与position可知,每一个Context都包括了与时间与地点相关的属性,这两个属性决定了Context对象具有显著的时空特性,基于上下文的时空特性,本文对HDS的数据处理与存储性能进行了优化。
  1.2 上下文时空邻域系统
  上下文的时空特性使得上下文数据在时间与空间上都存在着一定的局部性与相关性:空间位置相邻的上下文极有可能是对同一实体的描述;类似地,时域相邻的上下文通常描述实体的相同或相近状态。
  2 Hadoop大数据处理模型
  以“上下文”为统一数据处理对象,同时考虑模型的分布式处理需求,重点解决Hadoop框架在数据处理实时性方面的缺陷,本章提出了基于上下文队列的Hadoop大数据处理模型HDS。
  2.1 HDS上下文处理模型
  上下文处理模型主要包括数据采集、数据适配、上下文产生、上下文预处理、上下文池、上下文感知、上下文执行等模块,图1以传感设备为例对模型结构及数据处理过程[1]进行说明。
  如图1所示,物联网末端各传感设备采集的数据,经过上下文适配器适配生成上下文;采集数据通常是没有具体含义的电信号、数字信号或字符串信号,采集数据通过上下文适配器映射为上下文的过程称为上下文适配(Adaptation),可表示为Adaptation:S->C, Adaptation的输入端S为物联网末端采集数据集合,输出则是系统能够识别的上下文数据集合C,将其放入上下文节点。放入上下文节点的上下文经过预处理模块处理后,有效上下文被放入上下文池,无效上下文将被分离;上下文解析器按照心跳包周期性地从上下文池中获取上下文,解析并聚合产生高级上下文;高级上下文在执行适配器中对上下文执行所需要的组件进行装配并执行相应操作,完成数据分析与处理;最后,执行结果中需要反馈的上下文被放回上下文节点进行后续处理。   2.2 基于Hadoop的分布式并行处理模型
  图1所示的上下文处理流程仅仅是对物联网环境下单点数据的处理,在实际应用中,物联网数据采集节点普遍结构复杂、分布范围广、处理节点多,单点数据处理模型并不能满足物联网环境下的数据处理需求。
  由此,为增强模型在物联网环境下的实用性,在单点上下文数据处理模型基础上进一步提出物联网大数据的分布式并行处理模型HDS,模型采用Hadoop作为基础框架,主要包括计算层、持久层、存储层和处理层4层:持久层用于对上下文数据的访问;存储层存储历史上下文及规则库等信息;计算层用于处理海量实时采集数据及所产生的上下文信息;处理层主要通过上下文监听器将上下文队列中的上下文交由外部接口处理。考虑到Hadoop本身对数据实时处理的局限性,在系统模型设计中引入“上下文队列”作为辅助存储,其结构如图2[5]所示。
  如图2所示,存储层由HDFS和HBase组成,海量传感数据可以直接存储至HDFS,也可以经过上下文适配器转化为上下文并插入上下文队列;MapReduce监听上下文队列中的上下文信息,并周期性地把上下队列中的上下文写入 HDFS 和 HBase。HDFS 和 HBase 作为分布式存储介质存储海量传感信息,是分布式和并行处理的基础。计算层MapReduce算法并行处理来自上下文缓存池中的上下文,并执行外部接口,将产生的结果存入HDFS中。上下文监听器、上下文队列、外部接口共同构成了上下文队列处理模块。这种结构既满足了系统分布式和并行计算的要求,又达到了系统数据实时处理要求[6-7]。
  2.3 上下文队列模型
  通过上下文队列的辅助存储,系统可以处理任意数量上下文数据,并且可以跨数据中心、不受网络结构限制,同时具有良好的伸缩性和分布式并行处理能力。上下文通过开放接口与上下文队列进行数据传输,由上下文监听模块实时监听上下文并交由后续处理模块处理,上下文队列模型结构如图3所示。
  如图3中,本地上下文监听器分布于系统各个上下文监听模块,Zookeeper分布式协调服务器集群通过云队列服务器集群、HBase集群提供分布式协调服务。本地上下文监听模块监听上下文队列实例中的待处理上下文,通过适配模块调用外部程序接口实时处理上下文,HBase集群与HDFS集群共同实现上下文的持久化[8-9]。
  3 上下文队列模型核心算法
  在HDS中所有异构数据与服务请求都统一封装为“上下文”,上下文队列中对“上下文”数据的读取与移动是影响任务完成效率的重要因素。位于同一CNS的用户请求通常会对同一数据块进行操作,其操作具有一定相关性。本章通过对同一CNS中任务上下文重组算法进行设计来提高上下文队列任务的执行效率[10-12]。
  3.1 用户请求上下文邻域系统建立
  用户请求上下文邻域系统的建立,本质上是对上下文请求进行时空距离上的分类,建立不同时空距离的上下文邻域系统。以成品油运输在途温度监测问题为例,用户发送了n个不同查询请求,其中包括了查询起始与终止条件,封装后的上下文请求如:
  4.3 MapReduce并行实验
  1)数据处理性能对比实验。
  在表1条件下,利用MatLab建立仿真模型,根据式(8)对成品油配送中最佳车辆调度方案进行计算。通过不断集成服务器资源到集群环境中进行了1,2,4,6,7,8,10台服务器集群的7组分布式并行计算实验,SDS与HDS数据平均处理时间对比如表2所示。
  从表2可以看出,在1、2、4台服务器资源实验环境下,SDS比HDS具有更好的性能(map和reduce任务本身会消耗一定系统性能);随着服务器的不断集成,HDS计算性能迅速提升,当集成6台服务器时,HDS较SDS的数据处理性能已具有一定优势,在10台服务器资源实验环境下,HDS10的数据处理能力是SDS10的200倍以上。
  同时,HDS模型数据处理性能与集群中的服务器数量并非成正比关系,要提高HDS数据处理性能只需无缝集成服务器资源到集群中,特别在较多服务器资源环境下,进一步增加服务器资源数量能够让HDS数据处理性能得到迅速提升。
  2)数据处理实时性验证实验。
  以4.1节实验为案例,本节通过实验来验证“上下文队列”对HDS在数据处理实时性性能提升上的作用[20]。
  实验中:包括“上下文队列”模块的模型命名为HDSI实验;不包括“上下文队列”模块的模型命名为HDSU实验,两组实验仍在名称后面以数字标明集群环境中集成的服务器数量。
  在两组实验中,实验样本分别包括了从10000、20000、30000、40000及50000个油品状态样本数据及100个车队数据信息(在五组实验中车队数量保持不变),利用Matlab建立仿真模型,系统响应时间如表3所示。
  由表3可以看出,在相同服务器集群条件下,HDSI较HDSU具有更好的数据处理实时性,其优势随着集群中服务器数目增加而明显,特别是在多服务器集群、大数据样本情况下,如10台服务器资源,50000条数据样本,HDSI较HDSU数据处理实时性差异超过270倍。
  由此,“上下文队列”作为辅助存储来提高HDS数据处理实时性是一种可行并有效的解决方案。
  5 结语
  在对物联网环境下数据特点与Hadoop框架结构原理分析的基础上,提出了物联网环境下基于上下文队列的Hadoop大数据处理模型HDS,模型较好解决了既有研究成果中的三个问题:1)构建“上下文”,统一了物联网环境下的异构数据结构;2)“上下文队列”作为数据处理系统模型辅助存储,有效解决了Hadoop基础架构数据处理实时性低的问题;3)构建CNS,设计MapReduce作业重组调度算法对HDS数据处理性能进行了优化[21]。   实验结果表明,与SDS相比,HDS能够有效提高物联网环境下的数据处理能力;同时,“上下文队列”作为辅助存储能够极大提高数据处理实时性。
  参考文献:
  [1] XUE Y, GARRET S. Oracle indatabase Hadoop: When MapReduce meets RDBMS[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2012:779-789.
  [2] CUI J, LI T, LAN H. Design and development of the mass data storage platform based on Hadoop[J]. Journal of Computer Research and Development, 2012, 49(Sl):12-18.(崔杰,李陶深,兰红星. 基于Hadoop的海量数据存储平台设计与开发[J]. 计算机研究与发展, 2012,49(Sl): 12-18.)
  [3] SHI D. Cloud queue: an Internet scale messaging infrastructure based on Hadoop[D]. Shanghai: Donghua University, 2012.(史冬冬.云队列. 一个基于Hadoop的大规模消息基础平台[D]. 上海:东华大学,2012.)
  [4] ABHISHEK V, UDMILA C, CAMPBELL R H. Two sides of a coin: optimizing the schedule of MapReduce jobs to minimize their makespan and improve cluster performance[C]// Proceedings of the 20th IEEE International Symposium on Modeling, Analysis and Simulation of Computer and Telecommunication Systems. Washington, DC: IEEE Computer Society, 2012:12-18.
  [5] ZHENG D, WANG J, BEN K. Research on component adaptation model supporting contextaware[J].Computer Engineering,2012,38(2):39-41.(郑笛,王俊,贲可荣. 支持上下文感知的构件适配模型研究[J]. 计算机工程, 2012,38(2):39-41.)
  [6] WANG X, SARMA A, OLSTON C. CoScan: cooperative scan sharing in the cloud[C/OL].[2014-06-20]. http://paperhub.s3.amazonaws.com/d7c86e6da622b0ffc7fadf5e16241d3c.pdf.
  [7] ZHU Z. Research application of massive data processing model based on Hadoop[D]. Beijing: Beijing University of Posts and Telecommunications,2008. (朱珠.基于Hadoop的海量数据处理模型研究和应用[D]. 北京: 北京邮电大学, 2008.)
  [8] WANG X, SUN H. Research of optimizing multiway joins based on MapReduce[J]. Computer Technology and Development, 2013,23(6):59-66.(王晓军,孙惠. 基于MapReduce的多路连接优化方法研究[J]. 计算机技术与发展,2013,23(6):59-66.)
  [9] KOEHLER M, KANIOVSKYI Y, BENKNER S. An adaptive framework for the execution of dataintensive MapReduce applications in the cloud[C]// Proceedings of the 1st International Workshop on Data Intensive Computing in the Clouds. Piscataway: IEEE,2011:1122-1131.
  [10] HUANG Z,CAO F,LI J, et al. Developing sea cloud data system key technologies for large data analysis and mining[J]. Journal of Network New Media,2012,1(6):20-26.(黄哲学,曹付元, 李俊杰, 等.面向大数据的海云数据系统关键技术研究[J].网络新媒体技术, 2012,1(6):20-26.)
  [11] SU W, LI J, LIU H, et al. Design method of GIS spatiotemporal data model based on MapReduce[J]. Geomatics and Spatial Information Technology, 2013,36(7):41-44.(苏韦,李景文, 刘华尧,等.基于MapReduce的时空数据模型设计方法[J]. 测绘与空间地理信息,2013,36(7):41-44.)   [12] ZHANG Y, WU L, DENG W, et al. Combing temporal and spatial context for sketched graphical/textual stroke classification[J]. Journal of Electronics and Information Technology, 2013,35(1):113-118.(张友根, 吴玲达,邓维,等. 融合时空上下文的手绘笔画图文分类[J]. 电子与信息学报,2013,35(1):113-118.)
  [13] QI M, DING G, ZHOU Y, et al. Vehicle routing problem with time windows based on spatiotemporal distance[J]. Journal of Transportation Systems Engineering and Information Technology, 2011,11(2):85-89.(戚铭尧,丁国祥,周游,等. 一种基于时空距离的带时间窗车辆路径问题算法[J]. 交通运输系统工程与信息, 2011,11(2):85-89.)
  [14] JEFFREY D, SANJAY G. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1):107-113.
  [15] CAO Y. The research of performance optimization of Hadoop in big data[D]. Dalian: Dalian Maritime University, 2013.(曹英.大数据环境下Hadoop性能优化的研究[D]. 大连: 大连海事大学,2013.)
  [16] LIAO C, SHIH J, CHANG R. Simplifying MapReduce data processing[J]. Journal of Computational Science and Engineering, 2013,8(3): 219-226.
  [17] YU X,HONG B. BiHadoop: extending Hadoop to improve support for binaryinput applications[C]// Proceedings of the 13th IEEE International Symposium on Cluster, Cloud, and Grid Computing. Piscataway: IEEE, 2013:245-252.
  [18] LI C, ZHANG X, JIN H, et al. MapReduce: a new programming model for distributed parallel computing[J]. Computer Engineering and Science,2011,33(3):129-135.(李成华,张新访,金海,等. MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135.)
  [19] YANG Y, LONG X. Impacts of virtualization technologies on Hadoop[C]// Proceedings of the 2013 3rd International Conference on Intelligent System Design and Engineering Applications. Piscataway: IEEE,2013:846-849.
  [20] XIE G, LUO S. Study on application of MapReduce model based on Hadoop[J].Microcomputer and Its Application, 2012,33(8):4-7.(谢桂兰, 罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2012,33(8):4-7.)
  [21] HE W. Research of geological informationization based on IoT and cloud computing in big data era[D]. Changchun: Jilin University, 2013.(何文娜.大数据时代基于物联网和云计算的地质信息化研究[D]. 长春: 吉林大学, 2013.)

转载请注明来源。原文地址:https://www.xzbu.com/8/view-11912671.htm


 
中国论文网—— 论文代发/ 行业知名品牌 电话:400-675-1600
中国互联网违法和不良信息举报中心| 网络110上海网警在线|关于我们|闽ICP备13016544号-6
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。