您好, 访客   登录/注册

非结构化档案信息及档案异构数据库管理系统的研究

来源:用户上传      作者:

  随着信息化进程的深入和加快,特别是电子政务建设的稳步推进,各行各业产生了各种数据类型的电子文件、电子档案,如何科学有效管理这些非结构化和不同数据库结构的档案信息是各级档案馆面临的迫切问题。与结构化档案数据相比,非结构化档案数据的数量增长速度更快,管理难度也更大。调查显示,全球数据量的85%都是非结构化数据,针对非结构化档案数据的归档和归档后的管理成了档案信息化工作的当务之急。为此,国家档案局档案科学技术研究所在财政部申请了科研专项课题――“非结构化档案信息及异构数据库管理系统研究”,以探索较佳的档案信息整合模式,实现对分散在各地档案部门异构的、非结构化的开放档案信息资源进行有效整合、安全存储、高效维护、便捷利用。该课题获2009年国家档案局优秀科技成果一等奖。本文主要对总体架构的选择和优化、信息交换平台和档案资源利用平台进行介绍。
  
  一、总体架构的选择和优化
  
  课题对三种系统架构模式进行了比较,最终选择了一套适合本课题的系统架构模式。
  大型网络应用系统在架构选型上基本可以分为两大类型,即集中式与分布式,两种方案的基本思想如表1所示。
  综合集中式架构与分布式部署方案一的优点,尽量避免不同构架的缺点,结合各地档案馆实际建设情况,经全面考虑,项目提出并采纳了分布式构架方案二。
  基本实现思想是:
  (1)中心服务器主要从管理的角度人手,各地方档案馆按要求到中心服务器注册;
  (2)各地方档案馆自己维护索引服务,全文数据;
  (3)各地方档案馆提供索引查询服务、开放接口,中心服务器通过web Service的方式检索文件;
  (4)各地方档案馆提供全文展示服务站点;
  (5)中心服务器提供门户、档案检索服务、系统后台管理平台。
  分布式方案二(表2)具备以下优点:
  (1)中心服务管理方便,中心服务器管理人员主要负责管理与审核等工作;
  (2)系统建设资金投入比集中式架构需要的软硬件配置大大降低;
  (3)中心服务器不存在索引服务器和全文服务器的管理维护问题,没有存储压力;
  (4)各地方档案馆各自维护档案数据,索引文件和全文数据都不需要上报;
  (5)单个档案馆子系统一旦不能正常运作,不会影响对其他档案馆系统资源的查询;
  (6)各地档案资源更新的周期取决于各自的索引创建计划,在数据更新的时候只要启动索引文件创建任务即可,避免了索引文件与档案资源不匹配的问题;
  (7)开放档案数据的权限由各地方档案馆控制。
  分布式方案二缺点:
  (1)档案资源检索展示效率没有集中式架构快,因为索引文件和全文内容是分布式部署,访问效率取决于网络状况和各地档案全文服务器性能;
  (2)各地方档案馆都需要一定的软硬件资金投入。
  
  二、信息交换平台
  
  课题对子站点的架构进行了设计,提出了既有数据的使用方案,开发了中心服务器后台管理平台。
  1.子站点总体设计
  前置机子站点分布安装于各地档案馆中,主要负责各地档案馆可公开的档案信息的整理、索引创建,向中心服务器提供查询服务,并且向普通用户提供指定信息的档案浏览功能。具体架构设计用图(表3)表示:
  子站点具有数据维护、查询服务、索引创建、档案信息浏览4类功能。
  2.既有异构档案数据和非结构化档案信息的使用方案
  既有的异构档案数据,可以分为基础数据库和特色档案数据库两部分,为此课题组定义了基础数据库的结构,以便于开放档案信息资源的利用。
  (1)基础数据库。对于基础数据库的档案数据,子站点软件预先在系统中预装表结构,并提供标准的导入导出工具,安装软件后可以立即进行标准数据的导人工作。导入导出工具提供通过中间文件和直接对数据库导入两种方式。中间文件导人的具体操作方式是:先将既有数据库中的数据导出到预定义格式的XML文本文件中,如果数据量大可以根据主键分批导出,再导人到新数据库中;直接数据库导人的处理方式是:在应用系统中,提供设置新旧数据库字段对应关系的功能,并且可以根据主键灵活指定导入计划,可一次导入或分批导人。
  (2)特色档案数据库。对于特色档案数据库,子站点软件提供根据用户要求灵活建立数据库表的功能,先根据个性化数据要求,建立相应的数据库表,然后再利用标准化数据的处理手段,导入个性化数据。
  (5)非结构化档案信息。对于非结构化档案信息,子站点软件提供了基于软件的文件拷贝功能;如果数据量比较庞大,可以不采用拷贝的方式,而是根据既有数据的实际情况采用网络或本地资源直接读取的方式进行资源访问,以提高数据的利用效率,这种数据利用的前提是通信链路须畅通。如果现有数据存储在与本系统物理隔离的地方,应该采用存储中介进行数据迁移。
  3.中心服务器后台管理平台
  中心服务器后台管理平台主要包括用户角色权限管理、信息发布及审核、节点机注册审核等功能。
  
  三、档案资源利用平台
  
  1.信息门户
  国家数字档案馆信息门户提供档案收集、档案管理、档案利用,以及档案检索人口服务。首页提供了专题、名人、热点、展览四个栏目。热点栏目提供快速检索与热点内容相关联的档案信息资源的服务功能。
  2.档案检索
  档案检索是档案利用用户的核心接口界面。
  档案检索依赖于系统建立的全文、照片、音频、视频等档案资源索引库,这种分类检索的方式不仅提高了系统检索效率,同时也方便了用户对档案资源的检索利用;档案检索服务不仅提供全馆范围内查询的功能,同时也提供按指定馆藏进行查询的服务(表4);档案检索支持普通检索和带逻辑关系的档案高级检索功能;支持在检索结果中进行二次检索;档案检索结果的展示方式采用类似Google搜索引擎提供的方式。
  3.全文检索软件
  档案检索中的全文检索软件基于专有的分割索引结构、单向索引技术,内核支持涉密应用,支持机密及机密级以下全文检索;基于自然语言处理技术,实现高效中文分词、文本相关度计算、关键词自动标引、自动摘要、语义指纹、文本对照比较算法等,为智能检索提供有力支撑。此外,全文检索系统还支持多文档格式识别、多种数据源、多种查询模式和词典文件加密等功能。
  除信息交换平台和档案资源利用平台,系统还提供了档案管理平台基础类软件、安全类软件以及工具类软件,保证了档案信息资源高效、安全的利用。


转载注明来源:https://www.xzbu.com/1/view-306777.htm