您好, 访客   登录/注册

政务数据治理模式的研究和分析

来源:用户上传      作者:韦杰

  摘要:目前政务数据的共享和应用面临着质量不高、内容不全等问题,为此需要开展政务数据治理工作。文章针对政务数据治理体系,阐述了当前我国政务数据治理理论体系的现状和取得的成果,总结了政务数据治理的三个目标:统一数据标准和规范,统一数据资产管理,统一数据调度,详细介绍了数据共享与交换、元数据和数据元管理、数据标准和规范、数据资产管理、数据调度中心、数据安全体系等方面的内容,最后研究分析了政务数据集中治理和分散治理的技术特点及优缺点。
  关键词:大数据;数据治理;政务数据;数据资产
  中图分类号:TP311.13 文献标识码:A
  文章编号:1009-3044(2020)01-0298-04
  1概述
  大数据时代的到来,给企业、群众带来了极大的生活便利,也给国家政府治理带来了新的挑战和机遇,为充分利用大数据带动国家经济社会的发展,提高国家政务服务水平,国家启动了大数据发展战略,于2015年8月31日印发了《促进大数据发展行动纲要》,推动各部门、各地区、各行业、各领域的数据资源共享开放,从根本上解决我国政务信息化建设“各自为政、条块分割、烟囱林立、信息孤岛”的问题。目前全国各省、自治区已经建立了本地的数据共享交换平台,全面汇聚各部门、各行业的政务数据。国家数据共享交换平台共汇聚了部委1.6万条信息,地方66万条信息,5090个数据库,1.5万个文件,1191个服务接口。
  随着国家政务服务平台的建设和使用,各部门的政务数据共享交换显得更加重要。各级各单位的政务数据在政务服务平台发挥了很大的作用,但也面临新的问题。汇聚的政务数据存在质量不高、关联性不强、内容不完整、供需不一致等问题。因此,研究政务数据治理的内容,探索政务数据治理的模式,推动政务数据治理技术的应用,对解决政务数据利用出现的难题,对建设智慧城市,落实大数据战略具有深远的意义。
  2概念
  DAMA(The Global Data Management Community,国际数据管理协会1认为数据治理是对数据资产行使权力控制的活动集合,包括计划、监控和执行等。DGI(The Data Govemance Insti-tute,国际数据治理研究所)认为数据治理是包含信息相关过程的决策权及责任制的体系,根基于共识的模型执行,描述谁在何时何种情况下采取什么样的行动、使用什么样的方法。IBMDG Council(数据治理委员会)认为数据治理是组织管理其信息知识并回答问题的能力,如数据来自哪里?数据是否符合公司政策及规则?数据治理实践提供了一个全面的方法来管理、改进和利用信息,以帮助决策者建立对业务决策和运营的信心。国家市场监督管理总局和中国国家标准化管理委员于2018年6月发布《信息技术服务治理第5部分:数据治理规范》中将数据治理定义为数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
  在这里认为,政务数据治理是行政单位和企事业单位根据工作职能,按照数据生命周期,制定规划和流程,梳理数据资产清单,形成数据标准和规范,构建政务数据管理体系,实现数据统一管理、统一共享、统一交换、统一调度的工程。
  3研究现状
  目前,国内外学者、专家和实践者认为大数据80%集中在政府部门,20%集中在社会企业、群众,并围绕大数据治理概念、框架、技术、模式等方面展开研究。
  在国外,雷内·亚伯拉罕认为数据治理是指对数据的管理行使权力和控制。数据治理的目的是增加数据的价值,并将与数据相关的成本和风险降到最低,并提出了数据治理的六个维度和五个领域;索雷斯研究了大数据治理的框架、成熟度、治理标准、治理规则等内容;斯蒂芬妮认为每个单位负责数据收集,拥有数据所有权和应用权。数据管理者通过数据治理和数据规范化对数据行驶管理。
  在国内,文献[5]认为数据治理过程是对管理活动的评估、指导和监督,而管理过程是对治理决策的计划、建设和运营,分析了数据规范、数据清洗、数据交换、数据集成、治理框架,提出了“HAO治理”模型,将数据治理分为数据接入模块、治理模块、服务模块;文献[6]认为数据治理可以从宏观、中观、微观三个层面进行定义,总结当前政务数据治理存在的问题,提出了数据治理框架由大数据生命周期管理、数据源管理、技术支撑、资源中心、标准规范、安全等9部分组成;文献[7]结合贵州大数据的发展,对数据治理主体、治理对象、治理活动、治理工具等方面进行分析,验证政务大数据治理体系的构成要素。文献[8]提出数据治理的核心技术包括数据结构化处理、数据质量评估、数据清洗、数据规范化、数据融合与摘取、数据发布共享,列出了基于数据仓库的数据集成系统架构和基于中间模式的数据集成系统架构。文献[9]从数据治理主体、客体、工具三方面论述当前大数据治理理论研究的三个趋势,认为数据治理主体由企业扩展至政府领域,治理客体由数据提升至主体层面,治理工具由技术转变至管理维护。
  从数据治理的现状来看,我国政务数据治理还处于起步阶段,政务数据依然存在以下问题:一是系统种类繁多,数据关系不清。信息化建设初期,由于缺乏系统性、科学性的顶层设计和统筹规划,各单位各自为主,建设了大量的“数据孤岛”,使得数据共享难,业务协同管理难;二是缺乏统一的数据标准和数据规范。各单位在本地数据共享交换平台发布的数据形式多样,字段不统一,内容重复,数据权威性不强,汇聚的数据质量不高,可信度不够,导致共享的数据不敢用、不想用、不能用;三是各单位信息化水平存在差距,政务数据治理工作达不到预期效果;四是数据治理的机制不健全,技术支撑不足。缺乏数据治理的总体规范,总体工作指引和实施方案;五是信息化系统建设急功近利。各单位信息化系统建设重在系统的业务流程、展示效果,前期投入数据梳理的工作量不多,导致建設的大数据平台因缺乏数据支撑,数据逻辑不清;六是数据管理控制程度不高,政务数据的数据存储在各单位,由各单位独立管理,缺乏统一管理、控制的平台。各部门的数据供需仍以单线联系、沟通为主。   4治理的目标
  政务数据治理是从根本上建立数据标准和规范,统一数据资产管理,统一数据调度,保证数据可控、可用、可信的工程。第一,按照数据标准和数据规范,形成各单位逻辑统一、相互关联、标签唯一的小数据资产。各单位的数据资产组合成统一管理、统一调度、统一共享的大数据资产。第二,促进业务协调,提高政务数据流转速度,实现“一网通办”的目标。第三,建立健全数据的管理机制,规范数据生产、加工、存储、分析等环节的流程,构建政务大数据管理体系和安全体系。第四,以政务大数据为基础,挖掘数据价值,推进数字政府、数据社会、数据经济的快速发展。
  5治理的内容
  从大数据的角度来看,政务数据的治理是围绕政府大数据治理活动而形成的由一系列要素及其相互关系构成的有机整体,是一项体系工程,包括治理的主体、客体、数据共享与交换、元数据和数据元管理、数据质量、数据标准、数据规范、数据资产、数据调度、数据生命周期、数据安全等。
  5.1数据治理的主体和客体
  政务数据治理的主体通常是指数据治理工作的决策者、组织者、协调者、操作者和参谋者,通常是指大数据牵头部门、大数据专家委员会、大数据发展领导小组及参与治理工作的单位和人。数据治理的主体负责研究数据治理的总体规划和目标,制定治理工作方案、工作机制、工作流程。政务数据治理的客体通常指各行政机关单位、企事业单位为各级各部门采集、加工、交换、使用、处理的信息资源,包括文件、资料、图表、视频、音频、数据等各类信息资源。
  5.2数据共享与交换
  各单位按照政务数据资源目录的基本属性在统一平台发布库表、文件、接口,满足部门之间的数据传输,实现政务数据的供需。数据共享与交换需要数据提供方和数据需求方在同个网络,按照统一的规则实现数据申请、订阅的工作流程,实现跨部门、跨层级、跨区域的数据交换,是数据治理的重要传输通道和基础。
  5.3元数据和数据元管理
  从定义来看,元数据是描述数据的数据,是一组用来描述数据的信息组或数据组,反映某个数据的基本属性;数据元又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。政务数据治理过程中,元数据管理包括元数据采集、存储、分析三个方面,可实现数据源、表、视图、数据类型等信息的查询和浏览,并建设元数据模型,梳理数据之间的关系,展示数据元的名称。
  5.4数据质量管理
  政务数据治理需要对政务数据的完整性、规范性、一致性、及时性、准确性、唯一性、关联性进行系统检查,主要工作包括数据缺失、内容不全、记录为空、字段重复、名称不统一、类型不一致等信息进行检查和判断,并按照统一的转换规则进行加工处理,形成逻辑统一、相互联系、归属清晰的数据库或数据图谱。政务数据质量处理需要数据使用单位的评估,从业务的角度评价政务数据解决业务场景的效率,并定期形成数据质量分析报告。
  5.5数据标准规范
  数据标准是数据治理的重要依据,通常分为通用标准和行业标准,用于統一描述对象的属性,统一元数据和数据元的名称、类型、长度、内容、范围等。通用标准主要包括人、企业、房产、车辆等对象属性的描述。行业标准特指某个领域的数据内容,专业性、业务性比较强,如海洋、石油、森林、旅游等数据。数据规范通常指数据清洗、加工、存储、分析、共享、利用的工作流程或工作指南。
  5.6数据资产
  数据资产是根据部门的职责清单、系统清单、数据库清单、目录清单,按照统一的数据标准和规范,经过清洗、加工后,形成字段唯一、相互关系的数据总库,是部门的数据台账。数据资产管理应按照数据所有者、使用者、提供者、管理者进行管理和登记。数据的管理者应负责数据的调度流程、安全保障。数据的提供者应保障数据完整性、一致性、准确性、及时性、可信性等。数据的使用者应维护数据的一致眭、安全性、保密性,不篡改、不泄露、不售卖原数据。数据资产管理分为集中管理和分散管理两种。集中管理由数据管理单位统一汇聚各部门的数据,建成数据中心。分散管理由各单位按照统一的规则,建成本单位的数据库,通过数据共享交换平台实现数据的统一调度,实现数据“不为已所有,但为已所用”的目标。分散管理模式先由各部门建成本单位的数据小图谱,多个数据小图谱组成、关联形成数据大图谱,形成数据的关系网、调度网、拓扑图。
  5.7数据调度中心
  数据调度中心也可称为数据资源管理中心或数据资源共享中心,在数据共享交换平台的基础上,增加数据调用的灵活性,实现数据按需选择,一次性选择、多部门多资源同时调用的功能,并在部门部署数据共享库、前端采集程序。数据调度中心可以进行数据汇聚后,再提供共享和利用,也可以建成数据物理分散、逻辑统一、相互关联、统一调用的模式。数据调度中心需提供数据安全保密技术。
  5.8数据安全体系和法律法规
  政务数据的治理不仅需要技术手段,更需要建立一套完整的管理制度,形成数据安全体系。政务数据管理制度包括数据通用标准、行业标准,数据清洗加工规范、数据资产管理办法、数据调度管理办法、数据安全管理办法、数据脱敏工作流程、数据转换规则等。
  6治理的模式与技术
  根据政务数据的存储方式和数据调用的方法,政务数据的治理主要存在集中治理和分散治理这两种模式。两种模式虽然工作的内容基本上一致,但是在数据存储和数据调用方面存在一定的差异,对治理的主体要求也不一样。
  6.1集中治理
  政务数据集中治理,一般由大数据主管部门牵头负责数据的汇聚、存储、清洗、加工、分析、发布等工作流程。要完成治理的目标,第一,需要各个部门通过本地数据共享交换平台,按照统一的目录信息,发布数据库、文件等数据资源。第二,数据共享交换平台采用ETL技术抽取数据并集中存储在数据仓库。第三,按照数据标准和规范,对数据仓库进行处理,形成数据标准库。第四,数据标准库通过数据共享交换平台发布共享。见图1所示。   技术特点:
  1)重点通过ETL工具实现数据抽取(Extract)、数据转换(Transform)、数据加载(Load),按照触发器方法、时间戳方法、整表比对法、全表删除法、日志表法、主动交换法、人工报送法等进行全量抽取或增量抽取的方式。
  2)發布数据格式主要有库表、文件或文件夹、服务接口三种,基于Web Service技术实现XML文件、JSON数据格式的传输。
  3)服务接口调用通常采用OAuth 2.0的授权模式发送to-ken,保障数据调用的安全性,同时要防范API的攻击。
  优势:
  1)数据集中,统一提供基础设施、统一存储、统一管理、统一治理,统一技术和人员投入,减少各部门的经费开支,解决不同部门信息化技术差异的问题。
  2)数据共享交换平台功能主要集中目录、资源发布共享,数据交换等功能,整体功能框架比较成熟,技术架构比较普遍,技术维护相对容易。
  3)可灵活处理数据上报的工作,大批量数据获取比较容易,可灵活处理数据报送时的格式变化和质量检测。
  不足:
  1)由于数据集中存储,数据安全隐患大,易造成批量数据的泄漏,为此对网络安全和数据安全方面要求比较高。
  2)处理的数据所需的网络带宽高,容易产生高并发的数据调用,需要解决大容量数据交换,高并发性的问题。
  3)数据标准库和数据共享交换平台出现故障时,容易造成大面积数据共享交换失败,影响的业务范围较广。
  4)数据和人员的管理要求高,内部管理制度比较多。
  6.2分散治理
  政务数据分散治理,由大数据主管部门制定统一的数据标准和规范后,各个单位根据信息化系统和业务工作产生的数据进行内部的数据治理,形成本单位字段唯一、逻辑关联的数据标准库或数据小图谱。数据小图谱通过数据中台与数据共享交换平台连接。部门之间的数据调用通过数据共享交换平台和数据中台完成。数据交换时,根据各部门的需求,在数据共享交换平台勾选资源后,将请求发送给数据中台,获得部门的授权批准后,由数据中台从部门的数据标准库抽取数据,并反馈数据给数据需求单位。整个过程中,政务数据是分散存储在各个部门,并没有进行集中存储。数据共享交换平台通过控制数据中台实现单个部门或多个部门数据的调度。
  技术特点:
  1)重点采用分布式数据存储技术,将政务数据分布存储在各个单位内部,通过网络实现数据调用。如ceph的CRUSH、HASH算法,google的GFS分布式文件存储系统;Hadoop的分布式文件系统HDFS;Rackspace公司开发的分布式对象存储服务Swift;基于Linux平台的开源集群(并行)文件系统Luster。
  2)重点采用检索技术实现布尔逻辑、截词、位置、字段、加权等检索。如全文检索技术Lucene。
  3)重点采用基于MapReduce等任务调度方法,根据政务数据的分布情况确定调度任务的优先级,对数据进行合并后输出。
  优势:
  1)政务数据分散治理,分散存储,降低数据安全风险,避免数据大面积泄漏。
  2)各部门分别承担数据治理,有利于部门的业务工作与数据梳理,促进部门信息化发展,推进行业大数据应用的建设。
  3)分散治理通过数据中台实现数据随用随调,按需调用。可一次性调用多个部门的数据,也可按需选择调用的数据字段,数据调用更精准、更灵活。
  4)大数据主管部门负责制定数据治理的标准和规范,对各部门进行技术指导,减少人员的投入。
  5)数据治理从源头开始,数据的质量较高,数据的内容较完整。
  不足:
  1)数据共享交换平台的技术和功能要求比较高,需增加数据调度、数据图谱检索、数据资产管理等功能。
  2)数据中台部署需要新的硬件资源,增加硬件成本和运维工作。
  3)对各单位工作人员的技术水平要求较高,信息化技术较落后的单位需要培训。
  7结论
  数据治理是政务数据应用的阶段,是一项烦琐、复杂的工程。它既需要对数据进行逻辑关系的处理,也需要对数据的合理性、完整性进行判断。文章对政务大数据治理提出了两种不同的模式,为政务数据治理提供了思路和方法,为实现政务大数据资产管理,充分挖掘大数据价值进行了大数据决策治理研究。不同的数据治理模式,对技术的要求和部署方式也存在差异,可根据实际情况,选择合适的模式。文章从整体上介绍了政务数据目标、内容及模式,为建立健全我国政务大数据治理理论体系提供参考。
转载注明来源:https://www.xzbu.com/8/view-15144542.htm