本论文是一篇信息检索相关论文提纲,关于面向协调搜索的文本相似度计算方法相关毕业论文参考文献格式范文。免费优秀的关于信息检索及计算机工程及软件学报方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中.该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性.更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工.
关 键 词:空间向量;相似度;迭代搜索
中图分类号:TP391文献标识码:A文章编号:1009-3044(2014)19-4460-03
TextSimilarityCalculationBasedonSearchSystem
SUNCheng-cheng,LIAi-ping,HUANGJiu-ming
(NationalUniversityofDefenseTechnology,Changsha410000,China)
如何撰写信息检索硕士论文
播放:34046次 评论:7728人
Abstract:Inrecentyears,textsimilaritycalculationhasplayedadecisiveroleintextclustering,Webintelligentinformationretrieval,questionansweringsystem,Webpageduplicateremoval,NaturalLanguageProcessingandmanyotherfiles,especiallyinthesearchengine.Thisarticlebrieflydiscussesthemonlyusedmethodsoftextsimilarityputing,aswellasthesystemofhowtousetextsimilaritycalculationtodeterminethesamemultipletext.Moreimportantthingisproposingtheconceptoftheiterativesearch,whichmadefurtherrefininginformationretrieval,asfaraspossibletoensurecorrectness,informationretrievaltoimprovetheefficiency,theliberationofartificial.
Keywords:spacevector;similarity;iterativesearch
1概述
经济的发展使得计算机走进了千家万户,成为了人们日常工作、生活中获取信息,了解新闻资讯,甚至是购物等的重要帮手.网络的发展给人们的生活带来了极大的便利,从网上查找信息与看报纸、听新闻相比更加快捷和全面,越来越多的网民习惯于一键上网,获取所需的资讯.然而,我们都曾经或正在遭受着TB级数据的困扰,如何快速在这浩如烟海的信息中,快速准确的获取相关信息不仅仅能够节省大量的时间,提高工作效率,也是测评搜索系统性能的关键.又由于汉语具有的不同于英文的独特的特点,使得针对于汉语言的具有针对性的搜索更加富有挑战性.为了提升系统性能,满足用户从互联网上得到对于特定问题更精确的答案,本系统应用余弦向量计算出依据用户搜索条件返回的文本之间的相似度,去除无关重要的噪音信息,确保系统的可靠性能.通常情况来说,由于搜索条件单一或者不准确等问题会影响初次搜索结果的准确性和深度,为了得到更多更全面的信息,我们往往要进行多次迭代搜索.传统做法中,一般都是利用人工在搜索返回的结果中反复比对,判断是否是相同信息,或者说是否是搜索的目标信息,为了保证结果的准确性,必然要耗费大量的人力和时间.
本系统应用文本相似度计算就是要将人工从大量繁琐的信息检索和比对过程中释放出来,同时保证结果准确.虽然人工干预仍然是不可避免的,但是能够大大减少成本开销就是不容忽视&