您好, 访客   登录/注册

贵州农经云数据管理平台设计研究

来源:用户上传      作者:涂江华

  摘 要 随着农业信息化快速发展,贵州省建立了农经云平台,为更好地对其进行管理,在充分分析贵州农经云数据管理平台需求的基础上,以实现贵州农经云大数据的聚、通、用为目标,应用大数据思维和产品化思路,聚焦贵州农经云数据管理平台建设中涉及的功能架构、应用架构、数据架构、数据标准等进行了详细设计,为贵州农经云数据管理平台建设提供支撑。
  关键词 农经云;数据管理平台;设计;贵州省
  中图分类号:F323.3 文献标志码:B DOI:10.19415/j.cnki.1673-890x.2019.20.095
  1 贵州农经云数据管理平台概述
  贵州农经云数据管理平台是基于面向贵州农经大数据聚、通、用一体化的服务平台。其功能需求主要包括平台的元数据管理、数据资源目录管理、农经大数据基础库建设、数据采集、数据清洗、数据存储、数据加工、数据发布、数据共享服务和专题数据库配置等[1]。
  2 贵州省农经云数据管理平台应用架构
  2.1 基础设施层
  贵州农经云数据管理平台基于云环境部署,利用虚拟化技术,建成集约高效的统一资源池,为数据环境与业务系统的运行奠定基础。
  2.2 数据处理与管理层
  贵州农经云数据管理平台主要是解决农经数据的采集、存储、处理、加工、分析以及共享服务的需要。平台要实现对各类数据的统一管理以及数据调用与服务的统一接口,并借助数据库技术和分布式文件系统技术实现各类数据的融合处理、数据挖掘与深度学习。
  2.3 应用服务层
  应用层部署农经服务与产品加工共享系统。加工的产品和提供的服务主要分为3类:1)适用于农经部门内部;2)为行业单位服务;3)面向公众服务。整个应用层采用“互联网+服务”的模式,同时提供应用下载与应用服务,满足内部用户、农经政务应用和公众用户的农经信息需求。
  2.4 监控与管理层
  监控与管理层主要实现对平台各子系统和模块进行统一监控与管理,包括业务流程管理、业务作业调度监控和系统管理功能。
  3 贵州农经云数据管理平台数据架构
  农经大数据具有海量、复杂多样的特点。数据从收集到服务需要经过数据收集、数据解码、质控、统计加工、入库、存储管理、专题加工、共享分发服务八个业务应用阶段,每个阶段处理生成的数据均存储到相应的数据区,主要包括数据收集区、加工处理区、业务管理与服务区。
  4 贵州农经云数据管理平台各项标准规范定义
  1)数据元标准。参照各类数据标准规范制定数据元的建设标准,成立统一的数据元格式,数据元作为系统的底层数据基础,统一规范有利于数据标准化建设。2)结构化数据产品的元数据表結构标准。按照不同的资源目录,不同的元数据组成结构化数据表,规范逻辑表和数据库表的对应关系。3)非结构化数据产品的数据格式标准。非结构化产品的数据格式标准包括文件名命名格式标准、文件内容的格式标准。4)图形产品标准。图形产品根据不同的产品类型、不同的展示方式统一制定标准,包括分辨率、文件名、色标等标准。5)数据产品的分类标准。数据产品分类标准按照农经数据分为基础数据产品、业务数据产品、主题数据产品等分类。6)命名标准。命名标准按照业务分类+时间+作用+自定义进行命名。7)存储标准。存储分为结构化存储和非结构化存储,二者皆采用分布式搭建存储环境,将二者有机地结合起来,能够实现对系统整体数据的集中统一管理。另外,还包括数据汇交规范和数据使用规范等[2]。
  5 贵州农经云数据管理平台需求描述
  5.1 元数据管理
  为保证云计算数据的一致性与可用性,要对构成农经要素模型的元素及元数据进行统一管理。可在可视化操作界面建立元数据注册、审批、管理的流程,实现元数据的规范化提交、评审、发布、维护等功能,以保证数据的质量。
  5.2 数据资源目录管理
  要满足不同业务、不同部门、不同类型的数据管理,就需要一整套的数据资源目录。因此,要完成云计算数据资源目录的编制,主要按统一的资源目录进行划分,可以新增、修改、删除目录项,支持从地域范围、数据类型、获取方式等不同维度对数据资源进行编目。资源目录的管理可通过以下6点来完成。1)对资源目录进行动态管理,实现新增、删除、修改、查询等资源目录的编制功能。2)根据建立的资源目录创建资料集,根据业务需求填写资源集相关信息和选择资源对应的资源目录和元数据要素进行保存。3)对建立的资源目录进行提交审核,审核状态有审核通过、退回等。4)资料集审核通过后,就是资料集的退回和发布功能,发布功能包括发布资料集和创建物理表。5)对已发布的资料集相关信息进行维护。2)对已发布的资料集信息进行多维度的查询。
  5.3 基础数据库构建
  将农经云历史数据按《农经云数据标准》全部清洗入库,建立农经云基础数据库,具体包括资源目录数据库、农经云数据元库、地理信息数据库、政务资讯数据库、农产品数据库、市场数据库、气象数据库、企业数据库、产业数据库、农村电商数据库、乡村旅游数据库、农业园区数据库以及监控信息数据库等基础数据库。
  5.4 数据收集
  数据收集模块需实现各种数据的收集功能,即按照规定的时间要求从FTP、数据库、CIMISS等来源的数据收集到数据中心,清洗入库,存储到基础库或产品库,将云计算数据中心历史数据处理、清洗、迁移至新的数据中心。
  对常规格式数据的收集,包括网络爬虫工具、FTP服务器下载、Windows共享接入、数据目录收集、数据库读取配置、人工导入及录入、http文件接入、HTTP数据服务、API数据服务、http、Web Serverice常规接口数据的收集,以及第三方提供的接口数据通过可视化的操作,根据配置自动解析按标准汇聚入库。   5.5 数据存储
  根据资料种类的不同和数据应用方式的区别,云计算数据中心采用数据库管理和文件系统管理相结合的存储管理方式,并将二者有机结合起来,实现对系统整体数据的集中统一管理。
  针对不同类型的农经数据采用不同的存储方式,分布式关系型数据库存储结构化数据,分布式文件系统存储文件类型数据。具体如下:1)关系型数据库管理方式,对农产品、市场数据、气象等查询方式复杂而数据量相对小的资料采用结构化数据库管理;2)分布式文件管理方式,对那些数据量大、查询方式相对简单的雷达、卫星数据采用分布式文件管理方式,而其相关的索引信息和元数据则纳入到数据库管理中,以便于数据的查询检索和元数据的统一管理;3)NoSQL数据库管理方式,作为海量非事务型数据访问业务的存储载体,为查询分析计算提供数据存储支持[3]。
  5.6 数据管理和加工
  数据管理和加工是指对数据进行规范化、流程化、可视化管理,具备各种数据清洗功能,建立业务数据基础算法库,能够自由新增数据算法,根据算法加工指定数据,最终生成云计算数据中心所需的质量控制后产品、统计加工产品、图形产品,以满足各部门、各行业、各用户等方面的数据需求。数据加工处理算法主要包括3类,即数据解码算法、质量控制算法和产品生成算法。
  5.7 专题数据库配置
  根据云计算数据中心数据元库以及数据元自由配置字段建表、建库(基础库、专题库),基于云计算数据中心基础数据库,对基础数据库中的任意数据根据需求自由配置生成成品库的功能。
  5.8 数据共享服务
  提供数据共享通道,包括资料分发、标准化数据接口服務、Web Service数据服务、API数据服务、FTP下载服务和消息总线分发多种农经信息服务模式,且能够按需求自由配置底层数据和数据产品,根据实际使用需要选择常规数据共享通道与第三方共享,第三方用户根据权限获取共享信息。
  参考文献:
  [1] 常明,陈堃銶.基于SGML/XML的文件结构化研究与实现[J].计算机研究与发展,2002(2):199-204..
  [2] 陈萍.基于语义Web的网络资源整合模式研究[J].科学技术与工程,2006(12):1726-1728,1741.
  [3] 曹彦荣,吴洪桥,毕建涛,等.国家资源与环境数据库元数据管理研究[J].地球信息科学,2002(2):6-10.
  (责任编辑:刘昀)
转载注明来源:https://www.xzbu.com/1/view-15039110.htm