您好, 访客   登录/注册

基于用户日志双向聚类的查询扩展方法

来源:用户上传      作者: 胡炜 徐青翠 樊中奎

  摘要:文章对基于用户查询日志的查询扩展模型进行了优化,提出了一种新的基于用户日志双向聚类的查询扩展模型。该模型对用户日志中的用户查询和点击文档进行双向聚类,挑选出更符合查询主题的查询扩展词,将其加入到搜索系统中,以达到为用户提供高质量检索结果的目的。实验证明,该方法能够有效提高检索的质量。
  关键词:信息检索 查询扩展 双向聚类 用户日志
  中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2011)12-0233-02
  
  目前的搜索引擎主要根据用户输入的查询关键词进行检索,把相关文档返回给用户。但是,用户输入的关键词往往不能完全准确地表达用户所要查找的内容。查询扩展方法主要是通过修改查询词或通过修改查询词的权值来改进查询,使得修改后的查询能够更准确地刻画用户的真实查询意图,达到为用户提供高质量、高相关度查询结果的目的。
  1、相关研究
  查询扩展方法可以在一定程度上改善用户查询语义信息不够明确的问题,解决长期困扰信息检索领域的词不匹配问题。按照用户交互方式的不同可将查询扩展方法分为显式反馈和隐式反馈两种。显式反馈以相关反馈(relevance feedback)方法为主[1],隐式反馈基本上可以分为全局分析、局部分析[1]和外部数据分析[2、3]三大类。
  2、基于用户日志双向聚类的查询扩展方法
  2.1 基本思想
  基于用户查询日志的查询扩展统计模型的思想是,在用户查询记录的基础上建立用户查询空间,在文档集上建立文档空间,根据用户日志将两个空间中的词按照用户提交某个查询所点击的文章以条件概率方式连接起来。当新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用词加入查询。
  但传统的方法[3]中没有考虑查询主题对查询扩展词的影响,简单地利用贝叶斯公式挑选出点击文档中与该查询词相关联的词加入原查询,这样会将一些与查询主题无关的扩展词也加入到查询中,从而降低查询的精度。为了挑选与查询主题更相关的扩展词,在查询扩展之前,先对用户日志进行双向聚类,在文档集上建立与查询主题相关联的文档簇空间,将用户查询空间和文档簇空间中的词按照用户提交某个查询所点击的文档所在簇以条件概率的方式连接起来。
  2.2 用户日志双向聚类
  本文提出的基于用户查询日志的双向聚类方法采用的是向量空间模型来处理。给定用户查询集合U={u1,u2,…,um}和点击文档集合D={d1,d2,…,dm},用户日志中的查询点击关系,可以用一个用户―文档矩阵来表示,其中m行表示m个用户查询,n列表示n个点击文档,如下所示。
  其中,表示用户查询与文档的点击关系,用户查询的检索结果中点击了文档,则为1。矩阵中的每列可以看成文档的向量表示,即,用户查询的向量形式为:。
  首先对用户查询和文档分别进行初始聚类,然后用交叉迭代法[4]依次调整用户查询聚类和文档聚类结果。交叉迭代的具体步骤如下:
  (1)用户查询聚类调整。首先固定文档聚类,调整用户查询聚类。如果聚类数目为clusterNum,集合表示第个用户查询簇中用户查询所组成的集合,集合表示第个文档簇中文档所组成的集合,1≤≤clusterNum。表示第个用户查询簇的聚类中心的向量表示,令集合为包含用户查询聚类中心的文档。表示第个文档簇的聚类中心的向量表示,令集合表示文档聚类中心中包含的用户查询。
  对于每个用户查询簇,通过下式计算簇中各个用户查询与该用户查询聚类中心的关联关系:
  其中,表示用户查询是否点击第篇文档,表示第篇文档是否包含第个用户查询聚类中心,采用夹角余弦公式[5]计算,集合CommDoc表示同时包含用户查询和的文档集合,即 。
  (2)文档聚类调整。固定用户查询聚类,利用用户查询聚类信息来调整文档聚类。在各个文档簇中,通过下式计算每个文档与文档聚类中心的关联关系,
  其中,集合表示文档和文档聚类中心共同包含的用户查询所组成的集合。而集合CommUser为集合与对应的用户查询簇的交集,即: 。
  3、实验结果及分析
  3.1 实验说明
  本文实验使用的搜索引擎用户查询日志数据来自AOL(American Online)公司,由2006年3月1日00:00:00至2006年5月31日23:59:59 期间的全部搜索日志,包含了657 426个独立用户的总共36 389 567 条记录,其数据格式如下:用户,用户查询,时间,用户点击的序号,用户点击的URL。
  在实验中,关于局部上下文分析的算法,采用与Croft等实验相同的参数[6],使用与原查询最相关的前100篇文章作为查询扩展的基础,并选择前30个与原查询关联度最高的词成为扩展用词.对于基于用户日志的统计扩展模型,同样采用前30个出现的条件概率最大的词。
  3.2 实验结果分析
  作为有效性验证的对比实验,我们将基于用户日志双向聚类的查询扩展方法,记为QE on biclustering user log方法,与其他三种方法进行比较:(1)基准模型,即只用原始查询进行检索,没有使用查询扩展方法,记为Baseline方法;(2)基于伪相关文档的查询扩展方法[6],记为QE on relevant content方法;(3)基于用户日志的查询扩展方法,记为QE on user log方法。实验在GOV2数据集上所得到的4种检索性能结果如表1所示。
  从表1可以看出,在最优情况下,本文设计的QE on biclustering user log方法与传统QE on relevant content方法以及只基于用户日志的QE on user log方法相比:在MAP 指标上分别提高了7.21%和1.87%;在P@ 10指标上分别提高了4.01%和1.71%;在P@20指标上分别提高了4.24%和1.04%。实验结果说明本文提出的基于用户查询日志双向聚类的查询扩展方法获得了很好的结果,表2。
  基于用户查询日志双向聚类的查询扩展是建立在大量用户长期查询行为的基础上,并通过分析用户行为对查询日志进行双向聚类,在选择扩展用词时更注重用户关注的查询主题,有效防止了用户查询覆盖面的扩大化,从而扩展得到更多与查询主题相关的扩展词。
  4、结语
  为了改进搜索引擎检索结果的准确性,本文对基于用户日志的查询扩展方法进行了研究。通过对用户日志中的用户查询和点击文档进行双向聚类,挑选出更符合查询主题的查询扩展词,实验结果表明,该方法能够有效提高检索的质量。
  本文的不足之处是由于用户日志数据的稀疏性和大量噪音,双向聚类的结果难以达到最优,在未来的工作中,我们将涉及更多的相关实验,改进聚类效果,进一步的验证该模型的有效性。
  参考文献
  [1]J.Xu and W.Croft.Query expansion using local and global document analysis [C]// Proceedings of SIGIR.Zurich, Switzerland,1996:4-11.
  [2]X.Wang,C.Zhai.Mining term association patterns from search logs for effective query reformulation [C]// Proceedings of CIKM.Napa Valley,California.USA,2008:479-488.
  [3]崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599.
  [4]王明文,付剑波等.基于协同聚类的两阶段文本聚类方法研究[J].模式识别与人工智能,2009,22(6):848~853.
  [5]王卫国,徐炜民.基于潜在语义分析的个性化查询扩展模型[J].计算机工程,2010,36(11):43~45.
  [6]Xu JX,Croft WB.Improving the effectiveness of information retrieval with local context analysis.ACM Transactions on Information Systems,2000,18(1):79-112.


转载注明来源:https://www.xzbu.com/8/view-49203.htm