基于高频关键词统计的“域级整合”分析方法研究
来源:用户上传
作者:
[摘要]在介绍几种主要的词频统计分析方法基础上,提出基于高频关键词统计的“域级整合”方法,阐述“域”、“级”的理论基础和划分依据,以图书情报学科的三个样本实例具体说明“整合”分析方法,给出图书情报学高频关键词域级综合表以及高频关键词共现图模板,分析这种方法的应用研究价值。
[关键词]词频统计 关键词统计 计量分析 域级整合 分析方法
[分类号]G350
1 引言
词频统计(word frequency statishca)方法的一个重要应用领域是通过统计分析词频变化规律,预测学科、行业、技术的发展趋势。同频统计采用的具体统计分析方法主要有:①单关键词法,即根据大量单个关键词的增减变化规律统计分析。②共词分析法,有两种,第一种是包容地图和临近地图法,即根据若干指数计算结果,把关键词聚类成组,以网络地图的方法表现出来;第二种是基于战略坐标的共词分析,即共词矩阵和聚类结果的可视化方法。③词对关键词法(严格意义上也是一种共词方法),即以两两成组共现的成对关键词代替单个关键词,通过建立共词矩阵并进行标准化后,作统计分析。
本文在深入研究上述方法的基础上,提出一种基于高频关键词统计的“域级整合”分析方法,并作具体阐述。
2 “域级整合”分析方法的理论基础及其整合设计
2.1 “域”、“级”概念的理论基础和区分依据
2.1.1 “域”、“级”概念的提出 用关键词统计方法来研究和预测一个学科的态势,除了总体考察关键词数量变化外,还要考察关键词在表达事物主题(点)上的类型特征、词间组合(面)上的属分关系,从两个方面对高频关键词作组合聚类和关联程度研究。共词分析方法中的共词矩阵和多种指数、系数聚类方法主要从数学意义上解决组合聚类和词间关联程度的界定。笔者认为,在得到一组高频关键词后首先应从人类思维和人文意义角度作宏观聚类和关系定位,因此,就形成了对应于“点”和“面”概念的“域”与“级”的分析设计思路。
2.1.2 “域”――按意义划分的主题相关关键词组合任何学科研究都是由若干不同划分标准形成的主题研究集合。就研究对象而言,图书馆学有“管理说”、“要素说”、“信息说”、“知识说”。就研究层面而言,有传统图书馆研究和数字图书馆研究等。近年来图书馆学研究有了新的变化,图书馆研究“要素”被赋予新内涵,信息资源研究得到重视,知识管理理论影响到图书情报学研究,图书馆进入了数字化发展阶段,数字图书馆成为图书馆研究的重要方面。结合这些变化,本文提出现阶段图书馆学研究关键词的四大分布区域:传统区、信息区、知识区和数字区。
2.1.3 “级”――同区域内关键词出现的频次范围划分按照人们的思维习惯,关键词标引一般从大概念到小概念逐级标引,故图书馆、高校图书馆、公共图书馆这些大概念词总是呈现最高频次。设计关键词的“级”,把关键词的频度与“上下位类”关系联系起来,揭示关键词频度与词间概念组合属分关系,在进一步聚类分析时,使每个关键词在系统中按照域和级两个维度找到位置,从而为实证分析的解读提供支撑。本文提出关键词研究的统一为4级区分方案,即以同类期刊或期刊群为研究对象,确立采集时间段,得到高频关键词样本组后,一律按照4级划分级。分级的区分点确定:①关键词的频次分布图形的突变点;②同级内高频关键词数量基本符合减连续分布;③依据高频关键词含义适当人为干预调整。
2.2 “域级整合”分析方法的整合设计
2.2.1 样本采集本文以《中国人文社会科学学术影响力报告(2000―2004)》、《1999―2008我国图书馆学研究的实证分析(下)》和笔者自行统计的《中国图书馆学报》给出的高频关键词为样本。这三个样本的关键词来源在刊物种类上既具广泛性又有代表性,高频关键词的选定上也具有较强的科学性,时间跨度基本上为近10年。
2.2.2 样本整合分析按照4个主题区域、4个级别对每个样本内的关键词根据所属“域”和相对词频数的“级”分别列表归类,同区域同级内关键词按词频次数从高到低定位。为方便对三个样本关键词进一步整合,对每个样本的关键词作两两比较,采取改变字体和在关键词旁加标记的方法,标明样本之间关键词的重复(见表1和表2)。
用同样的研究方法,笔者对《中国图书馆学报》2006-2010年间高频关键词也进行整合分析。《中国图书馆学报》2006-2010年载文607篇,实际使用关键词1382个,2474次,经过统计筛选和整理,获得高频关键词(4次以上)共72个。“图书馆”作为通用词删除,实际为71个。
以上三样本的高频关键词总数为229个。
2.2.3 样本整合成果分析分别观察各样本表,可见关键词按词频分级后能够直观观察研究层次。同级关键词表达的主题概念也基本是同级的,如表2中的信息资源一信息资源建设一资源整合等。比较发现,三个样本尽管相对词频差别很大,分级档次相去甚远,但是绝大多数相同关键词都被至少两个样本列在了相同级别里,如:图书馆服务、信息服务、信息资源、知识管理在三个样本里都列在二级,文献资源建设、信息资源建设等都列在三级,在两个样本里相同关键词同处一级的情况就更多。如果说,把各样本相同的关键词分人相同的领域里是主观为之,那么这种分级形成的相同关键词同级现象就比较客观地反映了论文关键词标引的规律。
2.2.4 样本融合处理分析详细考察三个样本,全部关键词作进一步融合并表处理:①删除一些没有普遍业务意义的特定功能关键词,例如样本三中图书馆学、中国图书馆学报、图书馆学基础理论、理论研究、成绩、50周年等词;②删除三个样本中相同的关键词,只保留1个;③关键词所要表达的意义基本相同的相对低频词,例如评价、期刊评价都指期刊评价,删除评价等。三样本高频关键词合并总数简化为123个,对保留的高频关键词按区域和相对词频高低顺序排列(见表3)。
分析观察表3,可以得出一些有价值的结论。例如在信息、知识这两个领域,还没有出现像数字图书馆这样具有统领性二级关键词,反映图书馆学在信息服务功能定位和现代知识学说建设的多样性现状;又例如,在123个关键词中涉及到读者、用户的关键词仅有3个,虽然读者服务排在二级,但读者工作和用户需求却位列四级,而读者行为、读者心理等关键词在表中没有出现,这是否能够说明在图书馆工作研究中,对图书馆服务对象――读者的研究还有待深化呢?通过表3还可以看到,关于信息的关键词高达23个,比包含图书馆的关键词还多出了5个,正如美国图书馆学家兰开斯特指出的“一旦图书馆员迷上了科技,他们很快就对人失去了兴趣。……”中国图书馆学研究热点似乎再次印证了这位学者的看法。在技术发展的今天,图书馆工作还是要重视以人为本,以服务为导向的读
者研究。因本文研究的重点不在学科发展和图书馆服务工作内涵上,以上分析是对本文创建的域级综合表所反映的客观现象进行部分解读,表3作为一种分析工具或方法还可以深度利用,在此不一一展开。
这种研究方式没有将年代作为体现元素,但是年代的确定是重要的。在具体应用这个方法时,对高频词样本统计年代区间要以研究目的为依据分析确立。在现代信息和图书情报学术研究活跃的今天,针对不同目的,可以采取多样本数和相对短的年代区间或采用典型样本数和相对长的年代区间的方式来开展研究,得到针对不同研究目的有价值的研究成果。
3 可视化关键词共现图设计与应用
3.1 可视化关键词共现图模板设计
在“域”和“级”的概念基础上,笔者设计了一个以最高词频“图书馆”为中心的靶形图,分别列出层层围绕中心的4个同心圆环表示词频的4个等级,并借鉴解析几何学象限的概念,把4个“领域”划分为4个区域与词频圆环合二为一,图1就是一幅直观的高频关键词共现图模板。研究者可以根据需要,将整合后的关键词全部或部分按图中的位置嵌放(图1仅嵌入100个关键词示例)。
3.2 可视化关键词共现图模板应用
笔者把图1称作可视化关键词共现图模板,这个模板是图书情报学高频关键词域级综合分析方式的另外一种形象化表现方式,有利于更加直观地统计、观察、分析词频变化规律,是预测学科、行业、技术当前状态和发展趋势的一种有效的工具和方法。今后若将关键词的频数数据在共现图模板上表现,还可以得到图书情报学研究重点趋势的三维地形图,利于开展进一步的文献研究和挖掘。在具体研究中,还可以依据对“域”和“级”的划分方法,对“域”和“级”进行调整和扩展:在共现图模板上,域的扩展就是以原点为中心,将360度区域重新划分;级的扩展和调整则可根据关键词数量和词频变化情况,增减同心圆数。
这种研究方法在文献的比较研究中也有十分显著的作用,例如可用于不同历史时期同类文献的研究重点发展变化比较研究,或用于在相同阶段国内外同类学术文献的研究热点比较研究等。这个方法对于其它学科的文献研究,同样有很强的应用价值。
4 结语
本文基于人们的习惯思维和人文意义角度,探讨了一种新的词频统计方法即高频关键词域级综合分析方法,文章以近10年部分图书情报学科文献词频统计实例为样本表述了这种方法的应用。
本文创建了可视化关键词共现图模板,这是今后进一步开展文献词频统计分析的三维建模研究的基础工作。
在使用这种高频关键词域级综合分析方法时,对高频词样本统计年代区间要以研究目的为依据分析确立,以确保本各种研究目的的科学实现,获得有价值的成果。
这种研究方法可以用于各个学科的文献的词频分析,在各类学科文献的综合比较研究和趋势研究中有十分显著的作用和意义。
参考文献:
[1]刘洪波,词频统计的发展,图书与情报,1991(2):13-19
[2]黄小燕,情报领域研究热点透视――情报领域论文关键词词频分析(1999-2003),图书与情报,2005(6):82-84,110
[3]魏瑞斌,基于关键词的情报学研究主题分析,情报科学,2006(9):1400―1404,1434
[4]化柏林,图书情报学核心期刊论文关键词计量分析研究(下),情报科学,2007(8):1176―1179,1189
[5]姜春林,李江波,杜维滨,期刊文献计量与知识图谱对《情报科学》的解读,情报科学,2009(2):166―174
[6]余丰民,董珍时,汤江明,2000-2009年国内高校图书馆与公共图书馆研究热点概观――基于期刊论文关键词词频统计及共现分析,图书情报工作,2010,54(19):32-36
[7]邱均平,丁敬达,周春雷,1999-2008我国图书馆学研究的实证分析(下),中国图书馆学报,2009,35(11):79-87,118
[8]蒋永新,詹华清,基于共现关键词统计的图书馆学情报学学科研究趋势分析,图书情报工作,2008,52(9):28-31
[9]邱均平,丁敬达,周春雷,1999-2008我国图书馆学研究的实证分析(上),中国图书馆学报,2009,35(9):72-79
[10]冯璐,冷伏海,共词分析方法理论进展中国图书馆学报,2006,32(2):88-92
[11]吴慰慈 图书馆学基础,北京:高等教育出版社,2004
[12]邱均平,段字锋,论知识管理与图书情报学的变革中国图书馆学报,2003,29(2):19-22
[13]苏新宁中国人文社会科学学术影响力报告,北京:中国社会科学出版社,2007:1097―1098
[14]兰开斯特,生存无从强制王兴,译,中国图书馆学报,2011,37(1)19―23
转载注明来源:https://www.xzbu.com/1/view-152043.htm