您好, 访客   登录/注册

大数据与云计算技术的研究

来源:用户上传      作者:

  摘要:信息技术的进步及其在商业、工程、医学和科学研究等领域的广泛发展,导致了信息/数据爆炸,大数据的组织和处理需要巨大的存储和计算能力。文章研究了大数据云,大数据和云计算的集成技术,以及大数据计算作为云计算的服务。
  关键词:大数据;云计算;大数据云;数据分析
  信息技术的进步及其在商业、工程、医学和科学研究领域的广泛发展,导致信息/数据爆炸。在数据组织和处理方面,知识的发现和决策是一项具有挑战性的任务,这是一种被称为“大数据计算”的新兴趋势,它是一种将大规模计算、新的数据密集型技术和数学模型结合起来的新模式,用于构建数据分析。
  一、大数据云的特点及分类
  来自社会媒体、网络日志、科学研究、传感器網络、商业交易等多种来源的数据正在迅速增长。从如此大的数据中获得有用的决策信息,将来自多个来源的信息融合起来将是一项具有挑战性的任务。
  大数据云计算也称为“大数据云”,它是大规模、分布式计算和存储基础设施的数据密集型分析平台。大数据云的特点如下:1.大规模分布式计算和数据存储:广泛的计算设施,无缝地访问可伸缩的存储库和数据服务;2.信息定义数据存储:基于元数据的数据访问而不是路径和文件名;3.分布式虚拟文件系统:文件系统可以动态创建和映射到计算集群;4.计算和数据的无缝访问:透明访问大规模数据和计算资源;5.数据容器和计算资源的动态选择:能够处理虚拟机的动态创建,并能够访问增加数据位置邻近度的大规模分布式数据源;6.高性能数据和计算:计算和数据应是高性能驱动的;7.多维数据处理:支持多种形式的数据,并使用必要的工具进行处理;8.分析平台服务:能够在环境中开发、部署和使用分析;9.计算和数据的高可用性:计算和数据的复制机制;10.数据密集型计算平台:支持传统和新兴的数据密集型计算模型以及应用程序的可扩展部署和执行。
  大数据云是新一代数据密集型平台,用于快速构建分析并通过可弹性扩展的基础架构进行部署。根据向最终用户提供的服务,这些服务大致分为四种类型。
  公共大数据云:基于弹性可伸缩云基础设施的大规模数据组织和处理。资源通过互联网作为付费计算模式提供服务。例子包括Amazon云中的大数据计算,大数据计算的Windows Azure HDInsight,RackSpace Cloudera Hadoop和Google云平台。
  私有大数据云:通过虚拟化基础架构在企业内部署大数据平台,对单个组织拥有更大的控制权和隐私权。
  混合大数据云:公共和私有大数据云的联合,提高了系统的可扩展性,灾难恢复和高可用性。在此部署中,私有任务可以在峰值工作负载期间迁移到公共基础设施上。
  大数据访问网络和计算平台:由多个不同提供商作为服务提供的数据、计算和分析的集成平台。
  二、大数据云元素
  大数据和传统的数据仓库机制在很多方面都存在差异,比如大规模数据组织,以及对数据科学家进行分析开发的平台和工具。
  1. 大数据基础设施服务:该层提供核心服务,如大数据的计算、存储和数据服务。
  计算云:按需提供计算资源,可以根据分析需求进行扩展或缩减。
  存储云:通过网络提供的大量存储空间。提供的存储包括文件系统,块存储和基于对象的存储。存储云提供可选择的文件系统,并且还可弹性扩展。存储云通常基于数据量和事务/数据传输的定价模型进行访问。存储云提供的几种服务是原始的、块的和基于对象的存储。
  数据云:数据云类似于存储云;然而,与存储空间交付不同,它们提供数据作为服务。数据云提供了发布数据、标记数据、发现数据和处理感兴趣数据的工具和技术。基于数据采集、分析、分析报告和长期保存数据的“标准科学模型”四个步骤,数据云运行在利用存储云的领域特定数据上,以服务数据。
  2. 大数据平台服务:此层提供调度器,数据检索查询机制和数据密集型编程模型,以解决多个大数据分析问题。
  3. 大数据分析服务:将大数据分析作为大型数据云基础设施的服务。服务将根据服务级别协议(SLA)提供给企业,满足QoS参数。
  三、大数据云分层体系结构
  大数据云计算的体系结构被表示为四层模型。云基础设施层处理弹性的可伸缩计算、存储和网络基础设施。大数据结构层解决了用于数据管理、访问和聚合的几种工具。第三层是平台层,它处理用于数据访问和处理的工具和技术,用于设计用于执行的分析和调度模型的编程环境,等等;顶层是大数据分析,专注于分析使用,以及发布标准,将其作为服务。
  1. 云基础设施层:大规模地管理动态和弹性可伸缩的大型基础设施,计算和存储资源作为服务。虚拟化技术用于根据SLA和QoS参数对资源进行按需配置。该层提供的服务如下:1.大型弹性基础设施,按需建立大型数据平台;2.动态创建虚拟机;3.按需对文件/块/基于对象的存储进行大规模的数据管理;4.在存储库中无缝移动数据的能力;5.能够创建虚拟机,并使用计算节点自动安装文件系统。
  2. 大数据结构:该层解决可以访问存储,计算和应用程序服务的工具和API。 该层提供可互操作的协议API来连接指定的多个云基础设施标准。
  3. 大数据平台作为服务:核心层提供多种平台服务,用于存储/数据以及基于SLA和QoS的计算服务。该层由中间件管理工具(如调度程序),数据管理工具(如NoSQL工具)和数据密集型数据处理程序组成。这一层将主要关注工具和软件开发工具包(SDK)的开发,这些工具是分析设计的关键。
  4. 大数据分析:作为服务提供的大数据分析,用户可以快速地进行分析工作,而无需投资于基础设施,只为所消耗的资源支付费用。该层组织软件设备存储库,并在基础设施上快速部署,并将最终结果交付给用户;定价将根据使用情况、QoS提供的方法计算。   四、分层的组件
  (一)基础设施层
  该层提供有效管理和交付计算元素、存储、数据和网络基础设施的服务。该层又分为资源层和接口层两个子层。资源层在物理或虚拟环境中方便计算、存储和数据服务。物理环境类似于没有虚拟化的数据中心,类似于本地网络中的集群设置。在虚拟环境中,它可能是一个私有/公共/混合云提供商,提供基于消费的服务。物理和虚拟环境下资源层的功能相似;然而,虚拟环境提供的资源利用率高;然而,随需应变的资源配置和高度可伸缩的特性,由于强制的虚拟化技术而导致性能下降。
  1.资源层:资源层包括物理资源和云资源。通过本地数据中心或内部提供的非虚拟计算和存储资源。可以通过标准协议、网络接口访问物理资源。虚拟化/云资源由几个云计算提供商(如计算,存储和应用程序云)提供。计算云可根据需要提供多种可扩展的机器实例; 存储/数据云在线提供存储库或数据,有时两者都提供。云基础架构可能是私有的,公共的或两者兼而有之。但是,访问机制和安全实现将根据所选择的云的类型不同而有所不同。
  2.接口层:接口层支持基于Web和可互操作服务的开放标准协议。主要挑战包括异构硬件和存储基础设施之间的互操作性,以及不同云提供商之间的迁移/访问。接口层提供了访问计算资源、存储资源和应用程序服务的标准接口。这一层根据提供给基础层的服务划分为四个组件,例如网络接口协议、云计算管理接口(CCMI)、云存储/數据管理接口(CS/DMI)和云应用服务接口(CASI)。
  (二)大数据平台层
  这是一个中间件层,根据功能进一步划分为四个子层;它们是基础层、运行时间层、编程建模层和SDK层。基础层提供了资源管理、数据存储、数据管理、安全性和虚拟设备的机制。运行时间层解决了几个调度机制和作业管理机制。编程建模层采用了几个编程标准;SDK层提供用于多种语言编程的API。
  (三)用户
  系统的若干利益相关者如:1.开发人员:大数据通用应用设计师;2.数据科学家:设计分析应用程序的数据分析师。这可能是业务分析,科学探索等;3.终端用户:系统的分析用户。
  大数据云允许企业在其产品,资源或客户上收集实时数据点,然后重新打包,以优化客户体验或资源利用率;大数据云提供服务和付费的消费模式,有效降低应用程序开发的成本;大数据云能提高组织内数据共享的数量和更新的速度,使企业和其他组织能够更快、更准确地响应客户需求;大数据云使企业能够通过快速建立大数据数据库和编写分析来挖掘信息,从而节省资金,增加收入,并在垂直方面实现许多其他业务目标。
  *2019年度辽宁省经济社会发展研究课题:“互联网+”视域下农业农村民生档案服务及保护研究(2019lsktwzz-20);辽宁行政学院科研咨询创新团队项目:关于深化制造业与互联网融合发展的研究(2017kzcxtd01C)。
  (作者单位:辽宁行政学院)
转载注明来源:https://www.xzbu.com/2/view-14711794.htm