您好, 访客   登录/注册

数据挖掘技术在电子政务系统中的应用

来源:用户上传      作者: 庄仁团

  [摘要] 分析了电子政务数据的特点,介绍了数据挖掘方法,结合几个可能的应用例子,探讨了电子政务数据挖掘的实现。
  [关键词] 电子政务 数据挖掘
  
  1 引言
  信息技术的迅速发展和成熟,使得电子政务应用不断深化。电子政务能够辅助政府更好地为公众服务,也能满足人们对政府和职能部门高效运转的要求。
  从全国范围看,经过多年的实践,电子政务建设和应用初见成效。各级政府在不同的层面建设和实现了不同的功能。这其中建立和获取了很多数据。这些数据中具有一些知识。但目前的系统只是实现数据的输入、查询、统计等功能,还没有能够从中挖掘这些知识。充分利用这些数据,挖掘其中的知识,将能够为政府的决策提供更好的支持,能够更好地满足快速有效服务大众的要求。
  2 电子政务数据的特点
  电子政务涉及面广,因此拥有的数据也是海量而复杂的。归纳起来看,电子政务数据有下面这些特点:
  2.1 数据种类多。政府事务和管理涉及很多方面。因此数据类型也丰富。这些数据有统计数字、文本、图像、视频、音频等。数据种类多也使得数据的格式多样。
  2.2 海量数据。电子政务面向的用户广,业务繁多。随着系统的运行,每天由文本、图像、音频、视频等组成的数据,以及网络服务器访问记录、浏览器日志记录、用户个人信息、用户对话等生成的数据量巨大。
  2.3 数据的动态性。在电子政务系统运行过程中,各种数据库中的数据都在不断扩充和增加。
  3 数据挖掘方法
  应用数据挖掘时涉及两个方面的问题。第一是算法层面。第二是实现层面。
  在算法层面,数据挖掘主要来源于机器学习、模式识别等人工智能算法。这包括关联规则、分类、聚类等算法。
  (1)关联规则挖掘:其目的就是为了挖掘出隐藏在数据间的相互关系。
  (2)分类:分类算法的输入集是一组样本集合和几种类别标记。首先为每一个样本赋予一个标记,然后训练一个分类器。最后对新样本进行分类。
  (3)聚类分析:聚类分析法的输入是一组未标记类别的样本,也就是说此时输入的样本还没有进行任何分类。其目的是根据一定的规则,合理地划分样本。而所依据的这些规则是由聚类分析算法定义的,例如,可以是一个准则函数,可以是一条经验规则等。
  另外,数据挖掘还有一个重要的任务就是将结果呈现给用户,这需要一些机器学习的技术和其他计算机技术。
  在实现层面,不仅仅要考虑数据,还要考虑数据的存放。由于很多的数据是存放在数据库中,因此,不可避免需要采用数据库技术从而使数据挖掘算法能够更好地实现和更高效的运行。
  电子政务系统是一个大的系统,涉及的数据多而且丰富,用户众多,访问频繁。因此,电子政务系统通常会采用数据库。所以,在设计和实现挖掘算法的时候,需要充分采用数据库技术,从而使数据挖掘能更好地运行。
  4 电子政务系统中的数据挖掘功能
  形象地说,数据挖掘就是从大量数据中挖掘知识的过程。根据电子政务系统的特点,我们这里给出几种可能从中挖掘到的知识的类型。
  4.1 用户关注热点的发现
  在电子政务网站上,有大量的政策、法规、通告、新闻等文件。用户会根据自己的喜好点击、浏览和下载这些文件。通过网络日志可以记录这些数据。这些数据可以给我们提供一些信息。
  通过对这些数据的分析,我们可以知道,在一段时间内,大多数用户对哪些,或者哪类的文件有兴趣。由此可以确定用户的关注热点是什么。
  不仅如此,根据对不同时间段内用户关注热点的跟踪和分析,还可以发现用户关注热点的变化。这些变化能给政府部门人员提供丰富的信息,也可以促使我们寻找变化原因,从而及时作出相应改进以适应这些变化。
  4.2 用户使用电子政务系统的模式发现
  用户在访问电子政务系统时,会以自己喜欢的方式进行操作。根据网络日志,发现用户这些操作的模式,有助于改进电子政务系统。
  用户的操作模式包括两种类型。一种是大众的操作模式,一种是个人的操作模式。
  大众的操作模式是指一段时间来,大多数用户对于某一类功能的操作模式。发现这些模式,可以让我们了解大多数人是怎样操作的。由此可以启发我们分析目前的系统设计是否存在问题,是否存在改进的可能。
  个人的操作模式是指个人在一段时间的操作习惯。根据日志的记录,可以持续对一些用户进行分析,发现其个人操作模式。个人的操作模式和大众的操作模式可能不同。由此我们可以考虑设计面向不同用户的,或者说是用户自适应的政务系统。
  4.3 用户提交文件的搜索
  一些电子政务系统允许用户提交电子文件。数据挖掘算法可以对这些数据进行分析,以提供更好的服务。
  例如:在公务员招考过程,系统接收到很多报考者填报的数据。数据挖掘系统可以首先对这些大量的数据进行分析。一方面可以提醒某些粗心的报考者,他们填报的数据可能缺少相关的要素。另一方面,还可以从这些大量的数据中搜索,自动挑选出符合要求的报考者以供选择。
  5 数据挖掘在电子政务系统中的实现
  要使用和实现应用于电子政务的数据挖掘算法,还需要做以下几点。
  5.1 数据预处理
  数据预处理是数据挖掘中的重要步骤。由于数据存在大量噪声等,直接使用数据挖掘算法很难得到有用的知识。因此,在使用数据挖掘算法前,需要对数据做预处理:去除噪声。
  不同的数据挖掘算法对数据的格式有要求。为了使用某些数据挖掘算法,就需要对数据预处理,从而得到适当的数据格式。如,有的算法需要数据是向量,有的可以处理字符串。为此,需要对数据格式做相应的处理。
  5.2 数据挖掘的实现
  挖掘算法是数据挖掘中最核心的内容。在一些系统中可以用通常的技术实现算法。但是,电子政务系统具有自身的一些特点,因此,在实现算法方面,我们还需要有更多的考虑。
  5.2.1 增量数据挖掘
  由于电子政务系统的数据不断扩大,因此需要设计增量式的数据挖掘方法。
  增量数据挖掘是指当算法在已有的数据上挖掘出一些知识后,只需要根据新得到的扩充的数据来调整原来的知识的算法。这样就可以避免使用所有的数据重新挖掘的繁琐过程。从而可以节省时间,快速得到结果。
  5.2.2 并行数据挖掘
  由于电子政务系统的数据量庞大,因此常常需要通过并行算法来实现挖掘算法。
  海量数据信息的并行实现是当前的一个热点。用于数据挖掘的并行处理技术可将一个复杂的算法分解为多个子过程,每个子过程可以并行执行,这样可以大大加速数据挖掘的过程。也可以利用一台计算机上的多核并行计算。
  另外,电子政务中一些数据是分布在不同的计算机上的。因此,可以在各自的计算机上进行挖掘,然后将其有机地融合在一起。
  云计算是当前的热点技术。我们还可以考虑把云计算技术应用于数据挖掘。
  6 结语
  数据挖掘是电子政务系统的一个重要组成部分,可以为各级政府的决策提供科学的依据,从而提高各项政策制订的科学性和合理性。
  我们在本文中只是涉及了电子政务系统中数据挖掘的几个问题。特别是我们给出了几个可能的应用。其目的是启发我们对这一问题进行深入思考。随着电子政务系统的运行,我们对其中的数据挖掘功能会有更为迫切的需求。
  
  参考文献:
  [1] 李鹏飞. 基于数据仓库、数据挖掘技术的电子政务建设[J]. 现代电子技术,2004, (4): 1-3.
  [2] 孙正兴,戚鲁. 电子政务原理与技术[M]. 北京:人民邮电出版社,2003.
  [3] 苏新宁,吴鹏,朱晓峰等. 电子政务技术[M]. 北京:国防工业出版社,2003.
  [4] 金江军,潘懋. 电子政务数据资源的开发利用[J]. 地理与地理信息科学,2003, 19(6):42-46.
  [5] 裴韬,周成虎,骆剑承等. 空间数据知识发现研究进展述评[J]. 中国图象图形学报:A辑, 2001,(9): 854-860.
  [6] 陈侃. 基于数据仓库技术的电子政务资源库[J]. 计算机工程,2004,30(5):81-83,89.
  


转载注明来源:https://www.xzbu.com/1/view-242959.htm