您好, 访客   登录/注册

国内自然语言处理研究热点分析

来源:用户上传      作者:

  [摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。
  [关键词]自然语言处理 共词分析法 聚类分析 因子分析
  [分类号]G350
  
   1 引言
  
  最早的自然语言处理方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义:
  “自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。
  这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。
  在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。
  本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。
  
  2 研究方法
   共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。不仅如此。利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。
  用共词分析法分析国内自然语言处理领域的研究热点。需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。
  
  3 数据来源与关键词获取
  
  3.1 数据来源
  在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。
  
  3.2 关键词获取
  笔者利用自编软件首先把所有的题录数据载人到数据库中,然后从这些数据中抽取出关键词。进行关键词统计,选取高频关键词,然后对高频关键词进行两两共同出现次数统计,最终生成一个高频关键词共词矩阵。
  在处理的过程中笔者去掉了与自然语言处理无关的文献,最终有效篇数为2231篇。本文选择词频不低于12次的进行处理,去掉了一些不相关的词:如“汉语”、“综述”等;同时笔者对一些同义词进行了合并,如把“最大熵模型”和“最大熵”合并为“最大熵”等;最终确定了表征自然语言处理研究方向的61个关键词,这是本文进行共词分析的基础(见表1)。
  对这61个关键词进行两两组合,统计它们共同在2 231篇文章中出现的次数,形成61×61共词矩阵,部分共词矩阵如表2所示:
  在这里笔者把对角线的值设为该关键词与其他关键词共同出现次数的最大值+1,突出该关键词与自己的亲密关系。
  4 自然语言处理的共词分析
  在共词分析中常用的多元统计方法有三种:因子分析(Factor Analysis),聚类分析(Cluster Analysis)和多维尺度分析(MultimensionaI Scaling)。本文使用前面两种方法来对高频关键词进行分析,以揭示自然语言处理领域的研究现状和热点。
  
  4.1 因子分析
  因子分析要达到的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词间的相关性大小把研究对象的变量进行分组,使得同组内的变量之间相关性较高,而不同组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。这样较少的几个公共因子就可以反映原资料的大部分信息。利用因子分析法。可根据因子得分值,在因子所构成的空间中把研究对象的变量点画出来,从而客观地达到分类的目的。
  以上面得到的关键词共词矩阵为基础,在SPSSl8中选择主成份方法、协方差矩阵和最大方差旋转进行因子分析。结果显示有10个公共因子被提取出来,其累计方差贡献率为85.343%(见表3)。也就是说。将这61个关键词分成10个类别,就可以解释国内自然语言处理领域85.343%的信息。其中第1、2、6三个因子的方差贡献率较高,都超过了10%,分别为28.063%、10.821%、14.391%,累计方差贡献率为53.275%,这是国内自然语言处理研究的三个重要领域。
  而与因子抽取相配套的因子个数碎石图(见图1)则比较直观地显示出因子分析的前10个因子类别是比较明确的,这说明因子分析中将自然语言处理研究划分为lO类是合理的。因子提取结果产生10个公共因子,根据因子载荷量系数大于0.7对命名才有帮助的原则,共提出10个公共因子,命名见表4。最后一个因子由于只有一个关键词,因此就以其命名。

  关键词的载荷量反映了关键词在其公共因子中的相关度。表4显示了由载荷量大于0.5的关键词组成的公共因子(载荷临界值越高,所确定的分类结构越简单。根据本文的数据情况,为能较好反映关键词的组成结构,这里将载荷临界值定为0.5)。其中有部分关键词由于载荷量小于0.5而未能参与分类。它们是“文本挖掘、知识表示、句子相似度、wordnet、聚类”等。这些关键词的相关度相对较低,一方面,表明有些关键词尽管频次较高,但其所代表的研究主题范围较大,在因子的相关度分析中并无特色,例如“聚类”等;另一方面,有些关键词所代表的主题较为新颖,还没有同其他的公共因子很好地结合,如“知识表示”等。另外,关键词“机器翻译”同时出现在因子l和9中,体现了这两个因子――“机器翻译”和“语音识别”之间的密切相关性。
  
  4.2 聚类分析
  聚类分析是从事物数量上的特征出发对事物进行分类。是数值分类学和多元统计技术结合的结果,其基本思想是依照事物的数值特征,来计算各个变量或样品间的亲疏关系。而变量之间的亲疏关系则有变量之间的距离来衡量,一旦变量之间的距离定义之后。则把距离近的变量归为同一类。系统聚类(也称层次聚类)是最常用的一种方法,其含义是:开始将每个变量各看成一类,将距离最近的两个类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离……。这样一步步地进行下去,每一步减少―类,直至所有的变量都合并成一类为止,整个聚类过程可绘成聚类图。
  本文采用聚类分析中常用的系统聚类法(Hierar-chical Clustering Method)对共词矩阵进行聚类。该分析亦在SPSSl8中完成,聚类时选用离差平方和(Ward)作为聚类方法,在距离测度方法中选择离散数据类型Count中的斐方法(Phi-square Measure),在数据标准化中选择z分数。
  聚类分析的结果见图2,可以将自然语言处理研究领域分为10类,综合考虑每一类中各关键词的性质,最终确定自然语言处理领域的十大研究热点:机器翻译、词性标注、句法分析、词义消歧、语音识别、人工只智能、自动文摘、问答系统、信息检索、语义网。下面结合相关文献的具体内容,对自然语言处理的研究热点做进一步研究。
  4.2.1 机器翻译机器翻译是指利用计算机全自动或部分自动地将一种语言翻译成为另一种语言的处理技术,它是自然语言处理最早的研究工作,同时也是它的一个重要分支,而且一直都是自然语言处理领域关注的前滑和热点。“语料库”、“双语语料库”等关键词表明了机器翻译的其中一种方法――基于语料库的方法,因为进入20世纪90年代后,统计方法在自然语言处理中异军突起;“计算语言学”、“语言学”等是与机器翻译密切相关的学科;“中文信息处理”、“词义排歧”、“标注”等则是机器翻译的关键技术环节;“电子词典”等则是机器翻译的重要应用。


转载注明来源:https://www.xzbu.com/1/view-152332.htm