企业信息资源集成与开发解决方案研究
来源:用户上传
作者: 王博芬
摘要:企业信息资源是个宝。如何充分地开发和利用本企业已经拥有的信息资源,最大限度地发挥企业现有信息资源的作用,实现各种信息资源的共享,极大地提高企业的经济效益和管理效益,却是摆在每一个企业面前的紧迫任务。如何对其进行集成管理和开发利用,是每个企业必然面临的重要课题。在文献研究的基础上提出了解决的方案。
关键词:企业;信息资源;开发利用
中图分类号:F27文献标志码:A文章编号:1673-291X(2010)25-0032-04
一、企业信息资源亟待整合
企业信息资源是企业形成和获得的反映客观事物的各种信息和知识的总称。由于其所具有的价值和不可模仿性、延展性,它是企业拥有的最重要无形资产和获得核心竞争力的重要条件。因此,在知识经济时代,企业信息资源管理已经成为企业管理的重要组成部分,是企业提高管理水平时必须重视的关键问题。
然而如何充分地开发和利用本企业已经拥有的信息资源,最大限度地发挥企业现有信息资源的作用,实现各种信息资源的共享,极大地提高企业的经济效益和管理效益,却是摆在每一个企业面前的紧迫任务。而目前在各个企业中事实上存在的“信息孤岛”现象,不能不说是阻碍这一任务顺利完成的最大瓶颈。
对一个企业而言,它在自己整个生产、经营、销售、科研、基本建设和运行过程中形成和得到的所有信息资源,相互之间具有有机的联系,应该是一个整体。一般情况下,它们分别形成于企业不同的计算机信息系统,或者是分别在这些系统中收到或得到处理的。比如,为向国外采购某种技术设备,会形成各式各样的文件。有的是出国考察调查研究文件;申报和审批文件;计划文件;有的是财务文件;有的是合同文件;设备安装调试文件;审计文件;外事文件等等。它们由于同属一个采购引进项目,应该是一个整体,却又很可能分别形成于本企业的办公自动化系统、电算化系统或财务管理系统、合同管理系统、审计系统和设备管理系统等等信息系统之中。
然而,企业中所有这些计算机信息系统的建立都几乎有先有后,而且承建的计算机软件开发商也各不相同,故而它们的技术平台往往不同、结构各异,所形成的电子文件或信息的格式(结构)当然也互不相同,相互之间无法畅快地互通、交换共享,于是企业中出现了由这些信息系统分别构成的许多“信息孤岛”。
为此,极有必要将分散在各个信息系统之中的、互不相连、事实上处于相对独立状态的信息资源整合到同一个可以方便管理、检索和利用的平台上,使各个孤岛中具有不同格式的数字信息资源能够有机地联系在一起。也就是说,数字信息资源整合的重点是“破除”企业中原本存在于各种业务信息系统中相对独立的一个个信息“孤岛”,使企业内部各种不同格式和利用方式的数字信息资源,得到有机的集成,即:可以使所有这些电子信息作为一个有机整体被检索和得到利用,而不是仅仅依靠简单的链接,在速度极慢、既费时又费力的状况下去查询检索它们。此外,企业中原来收存的传统载体(大多为纸质文件)档案以及各类声像材料有不少也得到了数字化,构成了企业数字信息资源有机整体不可分割的重要组成部分。它们当然也有必要与企业原生的电子文件和电子信息整合到同一个可以方便地管理、检索和利用的计算机信息系统平台上。一句话,就是要把所有这些信息资源集成在一起进行管理和提供集成的服务,高效地实现各种信息资源的共享,最大限度发挥企业现有信息资源的作用。
一般而言,企业信息资源的整合可以考虑采用以下两种模式,即:数字档案馆模式和(在数字图书馆中普遍采用的)统一检索模式,而不必另起炉灶特地研制另外专门的整合平台。
二、基于企业数字档案馆的模式
企业在自己的生产、经营、销售、研发、基本建设和运行管理中形成的和收到的所有文件(既包括行政文件、商务文件,也包括技术文件资料、科研文件资料以及相关的设计图、建筑图等等)、各种数据以及多种多样的技术资料、情报等等数字信息资源,是企业生产和业务管理流程及其成果的真实记录,也是整个企业在自己的所有经营活动中逐渐积累起来的宝贵财富,本来就应该存入企业的档案馆(室)内妥善保存和进一步开发利用,为企业的继续正常运行提供依据,并且为企业的各种决策以及确立发展方向提供重要的参考。
不仅如此,根据国际档案学界新近的研究共识,鉴于电子文件不同于纸质文件的特点,数字档案馆(室)的管理职责应该向前延伸,即应该担负起对现行电子文件和信息施行全程管理和前端控制的职责,否则档案馆(室)不可能收到真实、完整、可靠和可以长期保存并且能够用作证据的电子文件和信息。再加上许多企业的档案馆(室)不仅管理科技档案,还同时另外兼具管理科技图书和科技情报的职能,故档案馆(室)本来就是企业信息资源的聚集地,为企业的自主创新和正常安全生产以及经营管理提供了信息和文献保障。上述情况,在中国具有一定的普遍性。
既然如此,既然企业的数字信息资源本来就都应该存入企业的数字档案馆(室),我们认为,企业信息资源的整合完全可以以文件和档案(即:企业所有生产、销售、各种管理和业务流程形成和收到的具有原始性的和得到记录的数字信息,既包括行政文件、业务文件、会计文件、商务文件和各种数据,也包括技术文件资料、科研文件资料以及相关的设计图、建筑图等等)、科技情报、图书等信息资源的整合为核心,以企业数字档案馆作为整合和集成管理的平台来实现。这样,通过数字档案馆这个平台,我们也就可以高效而方便地实现对所有这些数字信息资源的开发和高效快速检索及利用。故而,进一步挖掘数字档案馆(室)的潜力,赋予其新职能,将其用作企业数字资源整合和集成管理的平台,应该是最佳和最顺理成章的选择,也是今后发展的必然趋势。
数字档案馆系统实质上是一个通过计算机互联网络有序处理和集成管理在异构系统中产生的、多样化的电子文件、档案以及其他信息,确保这些数字信息资源的真实性、完整性和持久有效性,并实现上述信息资源跨库共享的超大规模、分布式和可扩展的数字信息系统。这个信息系统既是一个内容管理系统,又是实现档案数字资源长期保存的系统,同时也是一个系统集成管理和集成服务的系统 [1]。
数字档案馆系统的功能要求有:资源收集,资源管理,资源利用。资源收集功能要求包括:实现档案化管理的要求;对传统档案信息资源数字化的要求;自动实时捕获现行电子文件及其元数据的要求。资源管理功能要求包括:具备电子文件元数据管理要求;对分布存储的具有多样性、异构性的电子文件进行集成管理并且确保其长期有效性的要求;电子文件与传统档案的一体管理要求;对电子文件保管处置的业务流程进行智能化处理的要求;对数字档案进行分类、组织管理的要求。资源利用的功能要求包括:检索利用要求;信息共享要求;档案专题库建设要求[1]。
从数字档案馆系统的功能要求可以看出,它完全能够运用于企业信息资源的集成和开发利用。
三、基于企业信息资源统一检索的模式
另一种可供选择的模式,是类似数字图书馆的模式,即:在企业内不同系统之间实行信息资源跨平台统一检索,将不同类型、不同结构、不同环境的各种异构数据库纳入统一检索系统,使用户更方便、更高效地获取信息。异构数字信息统一检索系统主要基于标准化的各类协议和非标准化的Web过程模拟两种技术进行开发。标准化的协议包括Z39.50、RDBMS访问接口(ODBC、JDBC等)、OAI、ODL、OPENURL、元数据等 [2]。
跨库检索(Cross-Database Search),也称联邦检索(Federated Search),多数据库检索(Multi-Database Search)或集成检索(Integrated Access),以多个分布式异构数据源为对象的检索系统。它向用户提供了统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发的检索本地和互联网上的多个分布式异构数据库,并对检索结果加以整合,在经过去重和排序以后,以统一格式将结果呈现给用户,而且这一过程用户只需要以单一身份、单次登录和单一的检索方式就可以实现 [3] 。跨库跨平台检索目前主要运用于数字图书馆领域。
(一)跨库检索的主要实现方式 [4]
1.通过数据库接口软件与不同的数据库直接连接
这种模式的优点:一是直接对数据库进行检索,实现的技术难度小,二是不需另外投入资源建立索引库。其缺点:一是数据库达到一定数量时,处理速度很难保证。二是数据保密性差,而且由于数据保护的目的,难以获得各个数据库的接口。因为很多数据库是用商业数据库,供应商为了保护其商业利益,是不会随意公开数据库接口的。因此,使用这种方式开发的跨库检索系统整合的资源是有限的,而且已经整合的数据库也不能保证将来一定能够正常使用。
2.不同数据库间的格式转换,即将各种异构数据库的部分数据导入一个数据库系统中
其优点:一是检索反应速度快。二是不会因个别数据库访问失败而影响整体检索效率。其缺点:一是收录的数据库数量不能太多。基于这种模式的技术,只能实现对有限数据库的集中和检索。二是涉及版权问题。要将商业数据库的数据导入生产一个新的集成数据库并提供服务,需获得源数据库供应商的授权,否则,可能引起版权的纠纷。
3.运用元搜索引擎的基本原理,即利用数据库提供的独立检索接口进行统一检索
元搜索引擎主要运用于网页信息搜索,但现有各种网上的数据库都提供相应的独立检索接口,通过这些独立的检索接口,数据库的内容可以被类似于A9的元搜索引擎检索到。因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。其优点:一是扩展性好,通过对独立检索接口分析即可整合多个数据库实现跨库检索。二是不需获得数据库供应商授权,元搜索引擎利用数据库提供的独立检索接口进行检索,而独立检索接口是对外开放的。其缺点:一是需要对各个数据库的独立检索接口进行详细分析,并且接口的稳定性较差,各个数据库的独立检索接口如发生改变则需重新设计。二是检索效率难以保证,如个别数据库因网络等原因不能顺利访问时,将导致整体检索效率大大下降。基于元搜索引擎的跨库检索发展前景广阔,但是,如果没有对数据库的独立检索接口和元搜索引擎之间的检索协议进行标准化,制订一套通用的格式,实施过程将遇到很多麻烦。如果没有统一的标准,将注定开发数据库独立检索接口以实现跨库检索的工作会被不断重复,而其实现的效果,也只是将若干个“数据库孤岛”连接在一起,不能实现最大程度、最大范围的共享。国外在这方面的标准化方面已经做了大量的工作,相关标准协议有:OpenSearch,SRU(Search and Retrieval URL)和MXG (MetaSearch XML Gateway) 。
4.建立索引库
即将多个数据库的索引数据整合到一个索引库中,读者通过索引库进行检索,同时利用索引库所提供的URL定位到所需要的文献。其优点:有些图书馆系统已经具备了相应的功能模块,可借此实现数据库电子资源和传统纸本馆藏资源的整合。如香港浸会大学图书馆就是将其购买的电子期刊数据库所包含的期刊列表整合到INNOPAC的一个子库模块中,这样,读者通过INNOPC系统的OPAC检索书刊时,同时也可检索到电子期刊的记录。其缺点:一是需要投入不少人力维护更新索引库的数据。二是各单位建立的索引库标准不一,索引数据无法共享,无疑也存在着重复建设的问题。
(二)跨平台检索系统主要模式 [5]
1.元数据整合模式
元数据整合模式是目前应用较多的跨平台系统。
本模式通过对多个全文(原始)数据源按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(Web服务器)与客户端进行交互。用户看到的是一个集成后的多数据源查询系统,得到的是对原始数据的描述信息。通过一个特定连接,用户可以直接从原始数据源中得到原文数据。本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文获取通过不同的服务,但是标引和组织元数据需要耗费一定的资源,元数据与原文数据源之间的同步性差。对于元数据一致性协同性要求较高,或变动不太频繁的数据源采用这种方式较为合适。例如:电子期刊刊名整合、自建的数据库系统、电子图书整合等。
本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源的独立访问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。
这种模式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服务;但应用局限于原始数据源必须提供访问接口,而且由于各数据源的速度问题而影响到用户得到结果的时间。另外中间件的开发和获取各数据源后的数据整合策略和技术需要合理规划。
本模式适合用于有标准接口的数据源跨平台检索中,例如:将图书馆书目查询与电子图书(电子期刊)(必须是标准的数据库而且开放的结构)整合查询;多个图书馆书目查询系统通过各自的Z39.50服务器在客户端的中间件中整合显示(省去了数据发布系统);OAI数据服务者通过OAI协议从不同数据提供者那里获取数据并整合后提供服务。
2.网页搜索代理模式
这种模式的应用前提是原始数据源都提供了Web发布并有查询功能。
该模式对于目前图书馆大量购买的数据源和网上免费数据源整合发布比较适合。这些数据源通常只提供有限的元数据,也极少会提供标准接口。分布式网页搜索代理可以通过模拟用户请求到数据源的网站上获取信息,整合以后返回给用户。
本模式对于大多数网上资源可以进行实时、高细粒度的检索(取决于对方网站提供的检索深度,例如一般国外电子期刊可以提供到篇名级的检索),用户的查准率可以得到最大程度的满足。同时,对信息挖掘分析、软件开发和网络环境等的要求也相当高。为了获得足够的元数据信息,设计时必须对数据源的Web结构层次和文献组织有详细的分析,对不同的查询请求需要进行转换以达到数据源接受的要求;同样,对元数据的统一标准、数据整合策略和发布结果策略的制定等都有要求。国内外都有类似的软件,但是因为没有将其他类型数据源(特别是现有的自建数据库等)进行整合的妥善解决办法,真正成功的案例不多。
3.依附模式
将一些其他数据源的部分元数据(含超链接)加入到一个数据源中一起发布。最常见的形式有将订购(或自制)的全文电子图书(期刊刊名)的URL地址加入到书目查询系统中(或反向)。这种模式短期可以部分解决资源最大利用的问题,但是缺点是数据更新工作量很大而且多为人工处理;适用的范围较小。
数字档案馆模式与统一检索模式之比较。
数字档案馆模式与统一检索模式相比,两者之间的不同与优劣主要有以下几个方面:
(1)运用情况不同。统一检索模式在数字图书馆有了较多的运用,已经比较成熟。但是这一模式在企业中的运用尚不广泛,关于此类运用的相关文献也几乎没有,没有可以借鉴的实例,因此比较难预见在实施过程中会碰到哪些具体问题,需要企业一步一步自己去摸索。同时企业和图书馆的情况有所不同,企业的数据更新速度快、变化大,同时其中有不少需要妥善长久保存并且确保其证据性,所以像格式转换和建索引库这种统一检索模式实现方式并不适合于企业。而且企业现在所使用的一些系统有一定的知识产权,服务提供商不一定愿意提供接口,因而通过接口软件与各系统相连接的实现方式也不一定可行。相比之下,数字档案馆模式对于保证企业数字信息资源的真实、完整、可靠和证据价值,更有保障。企业实施数字档案馆模式的环境也更加优越:一是每个企业本来就应该或者已经建立了自己的用于集中保存全部有价值信息数据的档案机构,这些机构有较为成熟的相关经验,使数字档案馆系统有了现成的依托和运行机构。二是国家有一整套与档案管理有关的法律和规章制度,更有一整套档案行政管理和业务指导监督体系,有助于对数字档案馆的严密管理。三是目前中国已经有不少高校、科研设计院所和一些大型企业在尝试研制数字档案馆系统,取得了一些经验可以学习借鉴。这些都有利于企业数字档案馆的实现。
(2)实现技术和原理上的不同。前文已经详细描述,此处不再赘述。两者的实现都需要借助一定的国际(或国内)标准。
(3)检索效率响应时间有差异。对统一检索模式而言,无论采用何种方式来实现,由于企业内不同系统中必然存在一定的数据重复和冗余,所以检索过程面对更加庞大的数据对象,而且检索结果必须进行查重处理。数字档案馆系统中则基本上不存在重复保存的问题(档案工作固有的归档鉴定程序已经进行了筛选),这就决定了统一检索模式的检索效率和响应时间不如直接在数字档案馆存储数据中检索。
(4)信息存储的位置不同。数字档案馆模式通过捕获收集系统将数据从各个分散的系统中集中起来,将需要长久保存的精华部分都牢靠地储存在自己的系统里(其余的采用分布式储存方式)。统一检索模式中,企业信息资源依然存储于各个相互独立的系统中。
(5)数据长期保存和维护,数据安全上的区别。统一检索模式下,数据储存于不同系统,不利于数据的长期保存,数据的安全可靠得不到保证,企业势必要投入更多费用和精力来维护这些数据。数字档案馆系统下,数据集中保管,保存和维护更容易实现。数字档案馆系统中对于异构数据也会采取跨库检索的技术来实现其检索,这一点和统一检索模式有相似之处。
(6)必要性不同。出于对企业信息资源管理的考虑,为保证企业信息资源的可靠性、完整性、有效性,使之达到可以归档作为档案保存和利用的标准,建立数字档案馆系统是必要的,刻不容缓的。这不仅是企业的需要,也是国家法律(中华人民共和国档案法)的规定,必须实行。而是否建立统一检索平台,企业可以自主选择。
综上所述,企业通过数字档案馆模式实现信息资源的集成与开发利用,是省时省力省钱的明智选择。
参考文献:
[1]金更达,吴永志.数字档案馆理论与技术研究[M].北京:机械工业出版社,2007.
[2]曹方,施韶亭.基于Web过程模拟的异构数字文献统一检索系统设计与实现[J].情报学报,2006,(5).
[3]何志浩.基于元搜索引擎跨库检索中检索协议标准比较研究[J].现代情报,2007,(11):159-163.
[4]陈冰云.标准化跨库检索系统的设想[J].科技情报开发与经济,2005,(6),231-232.
[5]徐汝兴.图书馆跨平台信息检索系统初探[J].上海交通大学学报,2003,(37) .[责任编辑 吴高君]
转载注明来源:https://www.xzbu.com/2/view-396917.htm