本论文是一篇日志方面有关毕业论文开题报告,关于基于日志和知网的查询推荐相关毕业论文题目范文。免费优秀的关于日志及双向及方法方面论文范文资料,适合日志论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
〔摘 要〕考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响,本文在分析查询日志的基础上,构建查询词与点击URL之间的双向图,计算查询词与候选词之间的相似度.然后基于知网计算查询词与候选词之间的相似度,考虑词性和同义词因素对相似度的影响.最后将两个相似度分别赋予权重计算查询词与推荐词的相关度.实验结果表明,该方法不易受数据稀疏问题的影响,稳定性较好.
〔关 键 词〕查询日志;查询推荐;双向图
DOI:10.3969/j.issn.1008-0821.2013.10.015
〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0065-05
随着互联网和基础设施的快速发展,搜索引擎已成为人们获取信息的重要来源.根据中国互联网络信息中心2012年7月19日发布的《第30次中国互联网络发展状况统计报告》中显示[1],截至2012年6月底,中国网民数量达到5.38亿,搜索引擎的使用率为79.7%.有学者研究表明,用户输入的查询通常只有两三个词[2],并且对所要检索的内容知之甚少,所以用户很难明确的表达自己的查询意图.查询推荐技术是向用户推荐若干个与用户输入相关的查询,能帮助用户生成更加符合其搜索意图的查询推荐词,引导用户的搜索行为,优化搜索结果.
本文在已有的查询推荐研究基础上,从两个方面对查询词和候选词进行相似度计算.文章的结构如下:第一节介绍查询推荐相关研究现状;第二节分别基于双向图和知网计算查询词和候选词的相似度;第三节介绍整个查询推荐算法的流程;第四节进行实验验证和评价;第五节做总结分析.
这篇论文来源:http://www.sxsky.net/daxuebiyelunwen/05043257.html
1相关研究
早在上世纪90年代,信息检索研究者就开展了一些查询推荐相关研究[3],查询推荐技术在检索和浏览过程中的确能提高检索的质量和效率.根据所依赖的数据源大致可以分为两大类:一是基于文档的推荐方法;二是基于用户查询日志的推荐方法[4].
基于文档的推荐方法主要通过处理包含查询词的文档来分析查询,从查询相关文档或人工编辑语料中找出与查询词相关的词或短语,然后利用这些相关词或短语构建推荐查询.有学者利用查询相关文档扩充查询以解决查询短的问题[5],也有学者利用伪相关文档检索查询相关词[6].
基于日志的方法依靠分析搜索引擎查询日志来寻找出现过的相似查询,并根据一定算法排序后择优推荐给用户.查询日志中记录了用户完整的搜索点击行为,基于查询日志的推荐方法逐渐成为近年来常用的方法.有学者认为在同一session内出现的查询有可能语义相近,利用相关的相似度算法来度量查询间的相关性[7].有学者提出一种基于查询共有相同点击URL数的查询推荐方法[8],在此基础上,有学者基于查询点击双向图提出了改进的SimRank相似度算法度量查询相关性[9-10].有学者基于一个大规模商业搜索引擎查询日志,利用查询数据内在的全局流行度来获得查询之间的相关性,并提出了一种基于流行度排序的查询推荐方法[11].也有学者研究查询日志中用户ID与点击URL之间的联系,提出基于主题与用户偏好分析的查询推荐方法[12].
基于日志的方法根据搜索历史推荐查询词,相对于基于文档的方法更符合用户查询特点.但是查询词在日志中的出现频率呈指数分布,大多数查询词在日志中出现次数不多,这使得基于日志的方法面临严重的数据稀疏问题.
考虑到日志中数据稀疏问题,本文将从两个方面对查询词和候选词进行相似度计算.首先基于构建的双向图计算查询词与候选词之间的相似度,然后利用中科院的分词系统对查询词进行分词处理,基于知网计算查询词与候选词的相似度,最终得到查询词与候选词的相关度,相关度满足条件的候选词即为推荐词.
2基于日志和知网的查询推荐算法
2.1基于双向图的相似度计算
查询日志的丰富与否直接影响候选查询集合的质量,因此要获得较好推荐的效果必须有丰富的查询日志.这里我们采用搜狗搜索引擎公开的查询日志库.日志的基本格式如表1:表1查询日志基本格式
如表1所示,每一条检索记录由访问时间(t),用户ID(u),查询词(q),用户点击的URL(l),该URL在返回结果中的排名(r)和该URL点击的顺序组成(o).因此,一条检索记录可由〈t,u,q,l,r,o〉表示.在这里我们只考虑查询词和用户点击的URL两个因素,利用〈q,l〉构造查询词和点击URL的双向图.其中,查询词集合Q等于{q1,q2等qn}表示日志中出现过的查询词的集合,URL集合L等于{l1,l2等ln}表示日志中用户点击过的URL的集合.查询词结点qi到URL结点urlj的边eij由某一查询词节点出发到某一URL节点结束,表示用户输入该查询进行检索并在返回的结果中点击了相应的URL.边的权重wij是查询日志中eij出现的次数,一定程度反映了节点对之间的关联程度.边的集合E等于{eijqi∈Q,urlj∈L}表示了日志中所有的点击行为集合.
查询词与点击URL双向图如图1所示:
1图1查询词与点击URL双向图1
在对双向图的观察中发现,有些边的权重值偏小.考虑到用户使用搜索引擎的一些无意识的随机点击行为会增加一些噪音数据.我们设定阈值m等于4对边噪音数据进行过滤,删除权重小于m的边,再删除双向图中孤立的查询词节点和URL节点,减小双向图的复杂度.
在查询词推荐的研究中发现,查询日志中两个查询词有相近的语义关系,将有较多的点击URL共现.基于此假设本文使用双向图的URL结点集合来定义查询词,对于查询词节点集合Q与URL节点集合L,第i个查询词节点(qi)的特征向量为i:
i[j]等于wij1∑θijw2ij1eij存在
01eij不存在(1)
其中wij表示第i个查询词到第j个URL的边的权重.那么,对于查询词queryi和候选词queryj的相似度可以采用余弦距离计算:
Simquery(queryi,queryj)等于i×j1i×j(2)
2.2基于知网的相似度计算
《知网》是我国著名机器翻译专家董振东先生创建的一个知识系统.在《知网》的结构中,词是用概念来描述的,一个词可以表达为几个概念,而概念则用义原来描述,义原是用于描述一个概念的最小意义单位.
2.2.1词性因素
我们认为在推荐的候选词中,含有越多原查询中权重值大的词语,其与查询词的相似度就越高.例如查询词“华山风景”,华山作为惟一的专有名词,出现的频率较低,应具有更高的权重.在推荐的候选词中,“华山简介”就应该比“泰山风景”相似度更高.
首先利用中科院的分词系统对查询词进行分词处理,对于查询词query,经过分词处理,得到关 键 词集合query等于{t1,t2等tn}(n为查询词q中含有的关 键 词个数