基于非关系数据库的文件型大数据存储技术研究
来源:用户上传
作者:
摘要:在云计算技术的发展过程中,文件存储需求也在不断地增长,在此基础上提出了非关系数据库的文件型的大数据存储技术,通过与传统的文件系统以及信息系统进行脱离,最终将文件数据进行混合存储的方式,在各个MongoDB的节点当中存储数据,并且数据的存储空间能够进行自有扩展。该文将非关系数据库作为主要的研究对象,并针对在此基础上形成的文件型大数据存储技术展开了研究。
关键词:非关系数据库;文件型;大数据存储技术
中图分类号:TP311 文獻标识码:A
文章编号:1009-3044(2019)23-0003-02
开放科学(资源服务)标识码(OSID):
直到现在,对于云计算、大数据以及云存储这些专业术语,对于专业的信息技术人员以及普通信息技术工作人员来说,在实际的工作过程中,接触到的频率都是很高的。在企业战略集团中,通常认为大数据主要就是指在一定程度上对传统信息的处理能力极限有所突破的一种数据集合。对于传统的数据处理能力极限的突破主要体现在三个方面,首先,在系统的应用过程中出现突发事件的数据请求;其次,单个数据尺寸过大,传统服务器无法对此进行良好的储存;最后,数据集容量相较于当前的存储系统的容量阈值更大。
1 文件型数据存储技术的概述
文件数据存储的最终要点还是对数据进行储存,但是已经不再将关注的重点放在以二维表为主的机构化数据中,而是转向对以二进制文件为主的文件数据存储问题进行关注研究。
1.1 传统存储技术以及其系统结构
在对文件数据的存储进行研究之前,还需要对传统的存储技术进行简单的了解,而这样做的主要目的就是为了能够使传统存储技术与基于非关系数据库的文件型大数据存储技术两者之间形成鲜明的对比,从而将基于非关系数据库的文件型大数据存储技术所具有的优越性进行突出展现。
传统的主流网络存储技术在对机构化数据提供相应的服务的过程中,大部分采取的存储方式都是利用大中型数据库来实现记录级的数据存储目的,例如:ORACLE数据库、SQL Server系列。通过对非结构化的数据存储进行转变改进,最终形成了受到广泛关注的网络存储技术。在网络存储技术当中,主要包括的就是:直接附加存储、附网存储以及存储区域网技术。
在整个网络存储技术当中,对于一些数据存储规模并不大,并且对于存储需求相对较为简单的场合中,会选择应用直接附加存储;与直接附加存储相比较而言,附网存储是一种在直接附加存储的基础上做出了一定的改进,附网存储这种网络文件存储方式,该设备具有一定的自身管理系统以及相应的数据操作,能够对外提供IP地址。在本地局域网当中的客户机以及服务器,由于得到了附网存储的嵌入式存储系统的支持,能够直接对附网存储的服务器进行访问,从而使数据文件的存储工作具有更简易的安装、性价比更高并且可用度更高的特点。存储区域网与附网存储之间存在着一定的差异性,存储区域网在连接存储设备时,主要还是利用的光纤交换机,最终形成存储网络。在存储区域网中,将存储功能进行了剥离,主要的存储方式就是集中方式,使存储设备与主机之间能够分离,更便于开展数据管理工作。
1.2 面向文件存储的非关系数据库云存储系统
在现有的存储系统当中,主要有两种典型的存储文件方式,一种方式就是以ⅡS为主,在该存储方式当中,主要就是在同一台服务器当中,将WEB服务数据与文件数据进行共同存储,使服务不仅能够提供WEB服务,同时还能够对数据进行存取,但是这种模式在实际的应用过程中,不仅有着较高的处理器需求,同时宽带需求也很高。另一种文件存储的方式主要就是指将文件数据存储在关系型数据库当中,但是由于在实际的扩展过程中,文件数据库的扩展相对较为困难,并且,服务企业无法对此提供更高性能的服务。在近几年的发展过程中,云存储系统也得到了一定的发展。在云存储系统当中,其底层存储就是非关系型数据库,同时在该存储系统当中,将集群技术、网络存储技术、分布式计算技术以及虚拟化技术都进行了有效的结合,为计算机协同存储工作提供了一定的保障,并通过利用多台计算机为外界提供更全面的数据存储服务。关系型数据库中具有一定的提升数据交换性能,但是在非关系型数据库当中则放弃了这一功能,但是又为受众提供了将文档存储作为核心的数据存储方式,这种存储方式中以数据格式为主,对于读写性能高并发的性能需求能够更好地满足,同时,还能够满足服务器的弹性扩展需求[1]。
2 Mongo数据库以及存储结构
2.1 Mongo数据库以及特性
Mongo数据库中具有开放源码,属于一个文件型非关系数据库,Mongo数据库与传统的数据库之间相比较而言,Mongo数据库乜有模式,并且在实际的运行过程中,由于脱离了模式事务的一致性规则,从而提升了实际的运行效率。在对高并发进行访问时,以及有高网络吞吐的计算当中,可以应用Mongo数据库,而对于传统数据库而言,这些都是传统数据库无法办到的。在Mongo数据库当中,采用的存储方式为键/值,该存储方式不仅能够面向集合,同时还能够进行动态查询,除此之外,还有一定的索引支持,在该数据库当中最具特色的就是能够对二进制数据进行存储,不论是哪一种文件,都能够在Mongo数据库中被当作二进制文件进行存储。并且,通过利用Mongo数据库的自动分片技术,使服务器能够得到水平扩展,最终达到扩大服务器存储能力的目的。
2.2 基于MongoDB的文件型数据云存储结构
MongoDB数据库主要的目的就是为了存储二进制文件,并且在实际的存储过程中,主要的存储方式有两种,一种是系统主动分片存储,另一种就是用户自定义的分片存储[2]。在存储方式当中,分片存储方式主要就是指通过合理的对二进制文件进行划分,使其成为多个不同的数据段,在每一个数据段当中,在MongoDB数据库中通过记录的方式将文件进行记录,同时想要确保能够实现负载均衡,MongoDB提供了一种机制,从而确保相同文件当中的不同分块能够在分片服务器中分布存储,并且每一个分片服务对所有数据产生的自己子集进行管理,对于这些数据所存储的位置不需要用户操心,基本都是通过利用mongos路由进程来实现数据管理的,并且通过对mongos的利用,能够实现应用程序与各个分块服务器之间的通信目的。 3 文件型大数据存储系统实验平台
3.1 文件数据云平台设计
在设计文件数据云平台的过程中,主要包括四个方面的工作,这四个方面分别是:对硬件平台的设计、对云存储软件平台的选型、系统软件的设计以及配置设计[3]。
在设计硬件平台之前,最主要的準备工作就是要对硬件进行选型,选型主要就包括若干台交换机以及服务器。除此之外,对于MongoDB数据服务的要求以及对该服务器所提出的要求都相对不高,因此,在实验过程中,可以采用5台以i5 3420处理器架构的主机。在云计算过程中所采用的骨干网络贷款需要将其配置为1Gbps,因此,在选择交换机时要选用带有光口以及电口的,除此之外,选择的交换机也应当确保其背板带宽为4Gbps。为了能够确保数据的相关存储实验能够顺利开展,就必须要有10台相同型号的工作站存在,同时工作站的内存配置也应当控制在4GB,对于CPU的架构不做出限制。
3.2 存储系统信息流程
云存储系统与一般的数据存储系统之间存在着一定的不同,如果只对服务器群集提供一个文件数据,并将文件数据进行存储,那么云存储系统就会对文件数据进行分片处理。并且,受到主进程的控制,这些分片将会被分配给各个线程对其进行处理,在存储的过程中就会需要多台服务器之间产生交互作用。在云存储系统当中,主要的存储流程大致就能够将其划分为7个环节,存储流程环节如下[4]:
第一,通过调用CPU核心数的功能,最终明确该服务器当中活动的CPU数量,除此之外,对于数据文件也要进行利用,对其中存在的数据分片状况要有所了解,以及服务器当中存在的节点数也要有所了解。
第二,第二,建立起mongodb的连接池,通过服务器中含有的节点数来对连接池的容量进行明确,并且每一个连接都具有自己的属性。
第三,通过对CPU的个数进行确定,最终价格读写线程进行明确,同时也要将mongo连接进行初始化,除此之外,还必须要建立起读/写连接池。
第四,当主线程进行任务控制的状态下时,就会建立起互斥锁,确保各个读写进程之间能够更好地协同开展工作。
第五,由主线程将各个数据分片进行合理的分配,最后将各个数据分片的存取工作进行协调完成。
第六,互斥锁释放之后,各个子线程的子任务完成,并且各个子线程呢关键会在主线程中归集。
第七,对主任务的实际持续时间进行计算。
4 结束语
在互联网中存在着大量的文件,这些文件的存储问题就成了主要的研究问题,而非关系型数据库则为这些文件数据的存储提供了新的存储思路。虽然在现阶段的研究过程中,对基于非关系数据库的文件型大数据存储技术的研究,已经取得了一定的成效,但是在未来的发展过程中,还需要继续对系统的配置以及系统的性能进行优化,最后使其能够进入市场中,成为市场中的产品。
参考文献:
[1] 解飞. 大数据架构下的文献资源管理与应用[J]. 电子技术与软件工程, 2017(21): 189-190.
[2] 王凯, 陈能成, 陈泽强. 基于MongoDB的轨迹大数据时空索引构建方法[J]. 计算机系统应用, 2017(6): 227-231.
[3] 王涛. 大数据技术下,分布式数据库何去何从?[J]. 金融科技时代, 2017(4): 26-31.
[4] 李绍俊, 杨海军, 黄耀欢,等. 基于NoSQL数据库的空间大数据分布式存储策略[J]. 武汉大学学报: 信息科学版, 2017(2): 163-169.
【通联编辑:谢媛媛】
转载注明来源:https://www.xzbu.com/8/view-15031091.htm