基于元搜索引擎的引文分析系统模型
来源:用户上传
作者: 贺桂和
摘要:针对现有中文引文数据库存在的问题,利用元搜索引擎的原理,提出了一种改进的中文数据库引文分析系统模型(Citation Analysis System Model,CASM)。该模型实现了分布式检索和数据互操作,具有跨库检索功能,模型加入了检索结果用户分析模块,提出了一种计算间接引用关系强度的公式,通过耦合与同被引关系矩阵的建立,进行聚类与多维标度分析,实现了耦合与同被引关系的自动挖掘,为相关研究提供了一种可供利用的工具。
关键词:引文数据库;引文分析;元搜索引擎;耦合;同被引
一、研究意义
自从20世纪60年代Garfield创立科学引文索引(SCI)以来,引文分析用于研究科学期刊、科学工作者以及科研工作等的活动日益活跃起来。当前对引文数据库的研究也非常多,各种引文数据库异常丰富,尤其国外的引文数据库已发展得十分成熟。在引文索引数据库里,检索的结果再也不是简单的排列与堆积,而是相互之间有机联系的综合,借助于这种综合的检索结果,可以发现科学研究背后的逻辑,从而提出新的创见,这才是文献数据库真正的价值所在。然而纵观中文引文数据库,还没有权威性和收录范围都让人十分满意的研究成果。
发展中文引文数据库是一件需要大量投入并需要相当长的时间才能完成的工作,针对当前的研究需要,本文提出了一个基于元搜索引擎的中文数据库引文分析系统模型(CASM),希望在利用现有中文引文数据库的基础上,提高中文引文分析的效率。CASM把元搜索引擎技术引入中文数据库引文分析系统,旨在通过检索方式的改变提高引文分析的效率和分析的准确性。
二、基于元搜索引擎原理的CASM功能模块
为了能实现各数据库的综合利用,提高查全率,增加引文分析数据来源的可信度,CASM引入了元搜索引擎的思想。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在搜索引擎的基础之上建立起来的可以同时或分时查询多个搜索引擎的网络信息查询系统。元搜索引擎实际上是借助于传统的Internet搜索引擎提供信息查询服务的,它主要由用户接口界面、查询调度机制、搜索引擎代理和结果处理机制四部分组成。参照元搜索引擎原理,CASM设计了3个功能模块,利用各数据库已具备的检索系统进行检索,再将各数据库返回的检索结果进行处理,作为自己的结果返回给用户。根据用户的需要,CASM还可提供一定程度的检索结果分析。模型设计的目标是通过较小的资源消耗,帮助用户获得较高的查询质量。另外,设计时考虑到在使用过程中可能会不断有新的数据库加入,因此CASM还具有良好的可扩展性。
三、检索结果分析与应用研究
将检索结果的分析模块交给用户,也是ISI公司的新创意。虽然目前ISI公司的用户分析模块还只能提供一些简单的功能,但人们逐渐会发现,对信息检索结果的分析利用才是信息检索的真正魅力所在。检索结果分析与应用是检索结果用户分析子模块的主要功能。
1.耦合与同被引关系分析
CASM提供文献、著者、期刊三种耦合与同被引关系分析。文献耦合与同被引揭示了文献之间的结构关系,通过文献耦合与同被引关系分析,为文献检索提供了另一种有效的途径,有助于提高查全率。著者耦合与同被引分析使得无外部联系的著者客观地被关联,通过著者耦合与同被引关系分析,可以揭示相关学科的核心著者群,进行科研人员评价等。期刊耦合与同被引把众多无外部联系的各种科技期刊有机地联系起来,揭示期刊之间的相互依赖和交叉等关系。利用期刊同被引关系可以判断某些期刊的专业限制,帮助确定学科的核心期刊,指导图书馆等机构有针对性地对期刊进行收藏。同时,对科研工作者选择合适的期刊发表自己的研究成果也具有一定的指导作用,有助于加快科研成果的交流。无论是文献、著者还是期刊的耦合与同被引最终都是以文献耦合与同被引为基础的,所以本文只详细讨论文献耦合与同被引关系的挖掘与应用。CASM对由于同一篇文献多次引用某些参考文献而产生的多次耦合与同被引关系,只作一次计算。
(1)耦合关系挖掘。“耦合”(coupling)揭示了不同主体与同一对象之间的关系,两篇文献同时引用了一篇或多篇文献,我们说这两篇文献具有耦合关系,具有耦合关系的文献之间通常具有某种联系。分析文献耦合关系,对研究文献的引用结构和规律、主题相似性及学科结构等问题具有很大的帮助。本文提出的分析模块,可进行直接耦合分析与间接耦合分析。检索时提供文献、著者、期刊三个入口。现以文献入口为例,根据引文网络确定两篇文献的耦合关系的步骤如下(根据具体检索要求事先选取要进行耦合关系强度查询的两篇文献):(设置计数器T=2)
step1:接收客户端查询请求,检查是否为结束检索命令,是则退出检索;否则要求用户输入要搜索的耦合关系的层数i(层数为1时只搜索直接耦合关系),并将检索请求组织成检索表达式提交给各个数据库检索引擎,查找到入口文献的参考文献集合,该集合包含j篇文献。
step2:搜索参考文献集合中的每一篇文献的参考文献,得到下一层j个文献集合。
step3:对这j个文献集合,重复step2,直到检索出的层数达到用户的要求i。所有检出文献组成一个以入口文献为起点的参考文献网络图。
step4:if(T=T-1) 以事先选取的另一篇文献为检索入口,返回step1。
step5:对检索出的两个文献网络图进行比较合并,标记下路径,生成这两篇文献的引文耦合网络图。
在科学研究时使用文献耦合方法具有一定的缺陷,科学结构可能随时都处在动态之中,而文献耦合则是一种一成不变的测度方法,一篇文献一经发表,它的参考文献就固定不变,不能反映文献之间随着时间推移而发展变化的关系。
(2)同被引关系挖掘。所谓“同被引”(Co―citation),就是指两篇(或多篇)论文同时被别的论文引用时,则称这两篇(或多篇)论文具有“同被引”关系。同引强度隐含的原理是,同引强度因研究重点及其相关关系的转换而变化。因此,对文献的同被引情况进行分析,就能够反映文献之间不断发展变化的关系,它也是引文分析的一个重要方面。在本文的模块中,可进行直接同被引分析和间接同被引分析。检索时同样提供文献、著者、期刊三个入口。仍以文献入口为例,根据引文网络确定两篇文献的同被引关系的步骤如下(根据具体检索要求事先选取要进行同被引关系强度查询的两篇文献):(设置计数器T=2)
step1:接收客户端查询请求,检查是否为结束检索命令,是则退出检索;否则要求用户输入要搜索的同被引关系的层数i(层数为1时只搜索直接同被引关系),并将检索请求组织成检索表达式提交给各个数据库检索引擎,查找到入口文献的来源文献集合,该集合包含j篇文献。
step2:搜索来源文献集合中的每一篇文献的来源文献,得到下一层j个文献集合。
step3:对这j个文献集合,重复step2,直到检索出的层数达到用户的要求i,所有检出文献组成一个以入口文献为起点的来源文献网络图。
step4:if(T=T-1) 以事先选取的另一篇文献为检索入口,返回step1。
step5:对检索出的两个来源文献网络图进行比较合并,标记下路径,生成这两篇文献的同被引网络图。
2.结果分析图表
国外这方面的相关研究已非常多,早在1999年Chen就利用三维虚拟技术开发出一套把作者共引关系表示出来的图表,并分析了大型的引文网络结构。本文在研究时首先建立了耦合与同被引关系矩阵,再利用矩阵进行聚类与多维标度分析,生成耦合与同被引关系图。
(1)文献耦合与同被引关系矩阵的建立。利用生成的引文网络图,可以求出任意两篇文献的耦合与同被引关系强度值。这样,在对一个选取的文献集合(比如某一特定主题的文献)进行研究时,就能利用已生成的引文网络图,得到文献间的耦合强度S与同被引强度S’,从而将文献集合中文献两两之间的关系表示成相关矩阵。
(2)文献耦合与同被引关系图的绘制。根据耦合与同被引矩阵,则可绘制出相应的结果分析图,实现引文分析可视化。引文分析可视化旨在探讨如何利用计算机系统设计的方法和工具,把引文网络以一种直观网络图的形式显示出来,提供引文分析的查询和分析平台。比如,Steven Noel就根据文献的引文耦合提出了有关的可视化方法。CASM主要提供聚类分析图和多维标度分析图。
本文提出了一个基于元搜索引擎的引文分析系统模型CASM,元搜索引擎技术的引入使系统的检全率得到很大的提高,增加了引文分析数据来源的可信度,增强了引文分析的准确性。同时,该模型借助计算机技术,通过耦合与同被引关系的挖掘,实现了引文分析的可视化。当然,该模型还存在许多需要改进的地方,部分模块还只是一个原型需要进一步实践。同时,计算间接引用关系的公式有待进一步验证,对于参考文献标引不规范等导致的分析准确性问题还有待解决。以后的实践工作中我们将进一步完善。
作者单位:荆楚理工学院经管学院
参考文献:
[1]王大冬.中文社会科学引文索引系统的建设[J].南京大学,2000(4):1-12.
[2]徐科等.元搜索引擎中基于用户兴趣的个性化调度模型[J].清华大学学报(自然科学版),2005(45):1915-1919.
[3]张付志.一种基于元搜索引擎的数字图书馆互操作解决方案[J].情报学报,2004,8(4):422-427.
[4]华薇娜.美国ISI公司引文索引数据库最新检索功能评析[J].情报理论与实践,2005,28(3):332-336.
[5]陈定权.同引分析与可视化技术[J].情报科学,2005,23(4):532-537.
转载注明来源:https://www.xzbu.com/2/view-383560.htm