您好, 访客   登录/注册

基于XML的非结构化数据管理

来源:用户上传      作者:

  摘要:非结构化数据的管理一直是困扰系统设计人员的一个问题,本文列出当前非结构化数据管理几种方式并提出了基于可扩展标记语言(XML)的非结构化数据管理方式,结合Office非结构化文档转换为XML文档的实例来体现基于XML的非结构化数据管理方式对非结构数据的有效管理。
  关键词:非结构化数据 可扩展标记语言 数据管理
  0 引言
  随着全球信息化进程的加快,海量信息随即产生,这些信息一般被划分为两大类,一类是能够用数据库二维逻辑表来表现的结构化数据,如数字、符号等;而另一类信息则是无法用数据库二维逻辑表来表现的非结构化数据,如文本、图像、声音等。现实应用中很大一部分数据存储在使用功能强大的工具例如Microsoft Office Excel和Microsoft Office Word所创建的文档中,此外随着传感技术、网络技术与计算机技术的迅速发展与普及,数字摄影、文档扫描、视频产品和音频格式应用也进一步扩大了非结构化数据格式的范围。据统计资料表明,这些数据中20%左右有效地存储在了各种类型的结构化数据库中,但还有80%左右的非结构化数据分散在整个业务过程及外部环境中。
  如何对这80%左右的非结构化数据进行有效管理应用,数据管理是作为迈向这一目标的关键步骤,也是应用的必然选择与突破口。但是非结构化数据的管理一直是困扰系统设计人员的一个问题,目前对非结构化数据的管理方式主要有如下几种:文件系统对非结构化数据的管理、关系数据库对非结构化数据的管理、多媒体数据库对非结构化数据的管理、非结构化数据库对非结构化数据的管理、内容管理系统对非结构化数据的管理。
  现实应用中在应对非结构化数据的管理时,虽有越来越多的管理产品和技术存在,但是这些产品都较为复杂,实现起来也比较不方便,需要付出较为昂贵的代价。于是,我们需要寻找一种经济的、简单的、可行的非结构化数据管理方式。XML的出现给了我们一个解决问题的方案。由于XML是一种自描述语言,这使得可以用XML对非结构化数据进行描述,这便对非结构化数据的管理转移到对XML文档的操作管理当中。结合业界对XML成熟的操纵技术,进而能够达到像管理结构化数据一样在应用中对非结构化数据进行有效管理。
  1 利用XML对非结构化数据管理思路
  数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织,由于XML是一种自描述语言,使得XML管理非结构化数据成为可能。在实际应用中可以用XML对非结构化信息进行描述。XML可以处理各种数据,包括文本、图像和声音,并且可以由用户进行扩展以处理任何特殊类型的数据。XML技术采用树状数据结构,使用Schema/DTD作为XML文档的元数据集来完成对数据的描述和管理。现实应用中为了能够使用XML对非结构数据进行描述,需要对非结构化数据做如下处理:
  1.1 利用XML对非结构化数据进行表征与建模,即形式化表示或编码具有多层次的混杂、异构数据,建立可物理实现或可编程的计算模型,克服由于多源、异构和混杂所导致的信息分裂,这是非结构化数据有效利用的基础。
  1.2 非结构化数据的数学建模与知识推理,特别是从非结构化数据中提取具有物理意义的信息原子,将非结构化数据转化为XML描述的数据,这是解决信息精化与知识提取的核心。
  1.3 通过XML完成对非结构化数据特别是对异构、不同粒度和层次上的信息进行有效整合,以建立综合集成、优势互补的行为规划与决策机制,这是提升非结构化数据应用水平的关键。从非结构化数据中抽取有用的信息与知识,通过XML建立简捷有效的信息链接。
  2 利用XML对非结构化数据管理现实处理方法
  在利用应用程序对非结构化数据向XML转换时,主要反映在应用程序对XML文档对象的操作上,下面以Office文档通过应用程序向XML转换实现为例说明具体转换步骤:
  2.1 对所要转换文档描述信息进行抽取,包括文档名、文档类型、日期、作者、部门等信息,这是对非结构化数据转换后有效利用的基础。
  2.2 利用应用程序创建XML文档对象(DOMDocument)。DOMDocument对象是XML DOM的基础,利用它所提供的属性和方法来浏览、查询和修改XML文档的内容和结构。创建该对象目的在于产生非结构化文档转换后的XML文件,进而能够对非结构化数据转换后进行有效管理。DOMDocument表示了树的顶层节点。它实现了DOM文档的所有的基本的方法并且提供了额外的成员函数来支持XSL和XSLT。它创建了一个文档对象,所有其他的对象都可以从这个文档对象中得到和创建。
  2.3 创建文件内容读取方法,现实应用中一般以二进制流的形式读取,创建该方法目的在于方便对文件内容进行读取写入XML文档节点中。
  2.4 创建节点对象(IXMLDOMNode)。IXMLDOMNode是文档对象模型(DOM)中的基本的对象,元素,属性,注释,过程指令和其他的文档组件都可以认为是IXMLDOMNode,事实上,DOMDocument对象本身也是一个IXMLDOMNode对象。创建节点对象目的在于存储步骤1中所产生的非结构化数据描述信息以及步骤2中所读取的文件内容信息。
  2.5 将创建的节点附加到XML文档对象上,以存储描述信息、文件内容,构建转换后的完整XML文档。
  2.6 构建XML文档内容节点转换方法,以便在具体应用中对检索到的非结构化数据有效的使用。在需要使用某些文件的时候,可以根据XML文档中的内容进行查找和筛选,并根据文档中记录的存储位置进行调用转换。
  至此非结构化文档转换为XML文档结束,将非结构化数据转换成为XML文档以后,对非结构化数据的管理就转移到对XML文档的管理上。而对XML数据的管理,业界已有比较成熟的管理方式和方法,从而使得非结构化数据的管理也变得容易。
  3 结束语
  本文主要在前人对非结构化数据管理的研究技术基础之上,提出通过利用XML对非结构化数据进行转换以达到对非结构化数据的有效管理,XML数据是典型的半结构化数据,后续研究中可以继续通过建立XML与关系数据库的映射,按照一定的规则转换、处理,可将它转换成为结构化数据,以达到为传统的基于关系模型的数据库所支持。但是转换过程中没有统一的规范,另外转换效率和数据安全性仍是要探索的重点问题之一。
  参考文献:
  [1]徐宗本,张讲社.基于认知的非结构化信息处理[J].中国基础科学,2007,6:5-8.
  [2]文龙.XML与非结构化数据管理[J]. 电脑知识与技术,2009,5(6):1036-1038.
  [3]陈金水.非结构化数据存储管理的实用化方法[J].计算机与现代化,2007,8:26-27.
  [4]张志刚,姚玮.海量非结构化数据存储问题初探[J].中国档案,2009,8:51-53.
  作者简介:
  孙治国(1977-),男,汉族,山东青岛人,讲师,青岛港湾职业技术学院教学管理干事,研究方向为教学管理。
  李令臣(1981-),男,汉族,山东日照人,讲师,青岛港湾职业技术学院计算机科学系教师,研究方向为计算机软件开发。

转载注明来源:https://www.xzbu.com/3/view-10545353.htm