您好, 访客   登录/注册

分布式大数据管理系统的设计与实现研究

来源:用户上传      作者:

  摘   要:计算机技术在近年来发展十分迅速,各种大数据、物联网也在不断生长。大数据的出现,能够对大量的数据进行存储,并对大量的数据进行处理。传统模式下出现的数据库根本满足不了当下大数据的应用,在大数据的支持下,分布式数据库也得到较大化发展。但是,实际中对大数据展开应用的时候存在一些难题。因此,设计一款分布式大数据管理系统十分必要,这可以给大数据的采集提供无限可能,还能够增强数据的处理能力。
  关键词:分布式  大数据  管理系统
  中图分类号:TP311.13                              文献标识码:A                        文章编号:1674-098X(2019)11(c)-0152-02
  利用大数据对数据进行检索的时候,需要重点解决效率方面的问题,对分布式大数据管理系统加大设计,让其成为新的系统,让大数据能够具有较高的检索效率,让其能够对海量的日志实施相应的检索,并分析大量的数据,让大数据能够具备实时处理方面的功能。
  1  大数据和云计算之间的关系
  大数据技术不单单代表的是海量的数据信息,还需要对这些数据信息做好相应的处理。如果大数据是一种领域,对数据实施处理的能力就能够展开这个区域具体的盈利关键,通过加工让数据产生相应的价值。对大数据进行处理的时候,单台的计算机根本发挥不出具体的作用,需要使用分布式的架构[1]。但是,这种架构具有一种强大的功能,就是可以对大量的数据展开分布式的挖掘,但是必须依托云计算的分布式数据库展开存储技术。云时代的发展,让人们对大数据有了过多的关注。对大数据展开分析的时候需要将其和云计算有机地联系在一起。对大数据展开分析的过程中,更需要使用相应的框架对整个电脑的工作展开支配,这样花费的时间会更加多也会花费更多的金钱。
  2  分布式大数据管理系统结构组成
  系统在运行的过程中,中央控制集群会发挥出相应的控制信号,从而接收到关于用户的检索请求,检索工作的开展需要建立在用户的需求之上。对系统的所有状态展开实时的监控,将系统中存在的异常及时的处理。将特定的集群方面的任务取消,优化整个网络中存在的连接资源,让整个系统可以安全的运行,从而具有一定的稳定性。
  对于整个系统来说,入口就是大数据采集集群,大数据在实施采集的时候主要的过程是主要是执行单元。需要在多台机器上将数据采集功能开启,从而收到较高的采集效率。具体的操作需要多台机器的配合,打开缓存模式,在中央控制集群的辅助下缓存周期性的文件,保存永久的存储集群[2]。
  大数据检索集群主要是用户和系统交互的一个接口,可以通过自定义的命令发送中央控制集群的指示。中央控制集群更是需要利用大数据完成检索,对系统的运行状态实施相應的检索,查询具体的存储集群。汇总结果,然后将结果反馈给数据检索集群。利用视图这样的方式将最终的信息展现出来。
  大数据永久存储集群相当于一个仓库,库存量十分大,可以将数据永久的保留下来。将数据采集集群存在的周期特点有效发挥出来,做好数据的更新。采集好数据后并将其存储,这样可以让提高工作效率。
  其他的功能集群能够打造编程的拓展窗口,这样可以满足更多的用户需求,让新的集群有更加强大的功能。
  3  分布式文件系统
  3.1 分布式文件系统的组成架构
  分布式文件系统可以对数据实施存储,并管理系统的目录和日志。同时,还需要完成通信工作,让指令能够顺利的发出,对整个状态能够进行搜集,让数据块具有较高的完整性,对整个状态做好相应的维护[3]。对数据块做好创建,让整个负载处于一个均衡的状态。针对访问要求的数据让其能够处于一个负载均衡的状态,并对其中存在的数据做好调整工作。在数据库存较小的时候,需要对其中存在的一些文件进行复制,并将日志记录全部删除,对隐藏的文件进行回收,检测陈旧的数据,删除不重要的信息。这样存在的数据就会更加清晰,分类也会更加明确。
  3.2 设计思路
  对文件做好相应的划分,存储的过程中更是需要将其划分成若干块。每个文件块的大小相对来说都是比较固定的,配置的时候可以十分随意。为了让系统具有较高的可靠性,可以采用冗余的方式,每个数据块上面存在的服务器十分多,至少会有三台以上的服务器,这样可以让系统具有较高的可靠性。对数据的访问环节实施相应的调整和协调,需要让数据具有良好的统一性。设置的过程中不可过于集中的设置,文件操作中大部分会是流式读写的方法,不能多次重复的读写,利用Data Node完成数据存储的过程中,通过本地文件展开存储。
  4  分布式大数据管理系统的算法分析
  4.1 分布式大数据管理系统的数据结构
  分布式大数据管理系统对数据进行存储的时候,主要采取的方式是列的方式。所有字段必须遵循相应的顺序进行排列,按照不同的类型来保存,如果系统容量过于大的时候,需要利用存储单元来保存文件,这个文件也就是所说的数据块。利用数据块能够对数据进行采集和检索,对数据做好相应的存储。系统在实施分类整理的时候通常采取的是分块方式,利用中央控制集群将数据块存储起来,可以利用较短的时间完成数据的查询工作。
  4.2 分布式大数据管理系统的核心算法
  4.2.1 系统数据查询算法
  系统数据查询算法的流程通过图1可以表现出来,主要分为5个步骤。第一,用户完成对检索工作的请求进行提交,然后由数据检索集群接收检索请求。第二,通过中央控制集群接收数据检索集群中的信息。然后,针对用户提出的信息迅速完成定位。第三,利用中央控制集群通过索引然后完成目标的查找工作。一旦检测到索引方面存在的信息就不需要向查询命令进行发送。第四,数据永久存储集群进行查询的时候需要遵循相应的条件,根据相关需求,对结构进行反馈[5]。在没有找到的情况下,可以利用广播完成查找,直到找到结果的出现,对查询结果完成反馈的时候需要对中央控制集群加大应用。
  4.2.2 块索引查询算法
  中央控制集群将用户的请求接收之后就需要对数据做好剖析,优化查询的具体条件,对数据实施相应的优化之后再对目标展开检索,对整个算法流程实施相应的查询。
  对查询条件实施相应的解析,然后让模块能够重新组合在一起。如果分类信息中存在块索引分类信息,就可以在缓存中将块索引找出来,将查询出来的信息发送给数据永久存储集群,然后继续等候,确保目标数据顺利归来[6]。当信息中不存在块索引信息的时候,就需要利用常规模式对条件做好查询,利用编程完成的接口给数据提供更多的查询条件。对块索引查询算法进行引用,不断提升查询效率。
  5  结语
  对实验结果进行分析,对数据进行检索的时候采用分布式数据管理系统,会充分展现出利用该系统的优势。选择合适的时间段,并选择合理的检索条件,就会大大提升检索效率,这样可以对海量的数据做好相应的处理。
  参考文献
  [1] 王伟,廖正宇,张辉,等.基于大数据的铁路信号系统数据存储与分析系统设计与实现[J].信息网络安全,2017(1):29-37.
  [2] 孙小满,刘春.基于大数据的分布式网络安全管理平台设计与研究[J].信息与电脑:理论版,2017(19):128-130.
  [3] 佚名.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019(1):39-44.
  [4] 佚名.基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].激光杂志,2017(2):142-145.
  [5] 佚名.分布式大数据下多条件快速检索的设计与实现[J].科学技术创新,2018(28):77-78.
  [6] 王艳.浅谈交通管理大数据分布式管理应用平台的架构设计方案[J].科技与创新,2017(23):76-77.
转载注明来源:https://www.xzbu.com/1/view-15148507.htm