信息检索方面有关论文范文例文,与基于文本空间表示模型的文本相似度计算相关毕业论文开题报告

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文是一篇信息检索方面有关毕业论文开题报告,关于基于文本空间表示模型的文本相似度计算相关毕业论文开题报告范文。免费优秀的关于信息检索及文本及大学学报方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

〔摘 要〕在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标.最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果.

〔关 键 词〕文本相似度;文本空间表示模型;段落;算法

〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)02-0021-03

文本相似计算具有重要作用和广泛应用,它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘 要等领域.在文本复制检测方面,相似文本的检测可保护创作者的合法权益免受他人侵犯;在信息检索领域,相似文本的检测可以略去大量冗余信息;在自动文本摘 要领域,主要为web页面自动生成摘 要,便于web信息检索[1-2].目前文本相似计算在信息检索以及自动文本摘 要领域应用较为普及,在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取,利用关 键 词顺序匹配的方法实现相似文本的检测[3-4].

对于一个大型数据集,当给定任意一个待检测文本,相似文本计算算法应该能够以较短的计算时间完成相似性检测任务,即:发现与该文本在语言表达上有一定相似度的文本,如果系统中事先存在这样的文本的话.基于算法执行时间和执行效率的考虑,本研究将文本分解为段落,进一步将段落分解为语句,语句又分解为若干词语的集合,以此构成三维的文本空间表示模型.只要在语句和段落维度上发现被检测的两个文本存在相似处,则判定被检测对象存在相似之处.最后利用已有的测试集检测算法执行结果.

1相似度判定的层次分析

从文本属性这个角度来看,文本相似检测可以从两个层面进行:内容相似和语言表达相似.对于任意一个文本而言,内容与语言表达并非相互独立的两个方面[5].内容相似的文本,其语言表达形式并不一定就相似,例如以下两个例句:“大年三十晚上,街上冷冷清清,看不见一个人影”,“除夕夜晚,马路上空空荡荡,一片寂静的景象”,二者要表达的内容是一样的,但表达所使用的语言词汇却又很大的不同;而语言表达相似的文本——包括词汇以及词汇间的相对次序相似,其内容在很大程度上则是相似的.现今搜索引擎采用同义词技术,如:“大年三十”和“除夕”、“夜晚”和“晚上”等,能将包含检索词的同义词或近义词的文本搜索出来,所以信息检索更多的是从内容相似这个角度进行相似文本计算;而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算[6].现今的著作权法只保护作者思想的外在表达形式,并不保护作品反映的思想或观点,因而本文将从表达相似这个角度探讨文本相似检测的思想和算法.

从文本结构这个角度来看,相似文本检测可以从多个层次进行:全文、段落、语句、词语.不同层次上的相似度检测可用于不同的研究领域,如:判定词语间的相似度计算可用于机器翻译领域[7];判定词语与句子或段落之间,或者句子与段落之间的相似度计算可用于信息检索领域,例如:我们在检索信息时,通常输入的是若干个词语或者是一个句子,其将作为查询向量输入检索系统,并与文本库中的文本向量进行距离计算;段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域.上述3个检测层次的对象粒度依次递增,而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的.本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上.之所以选择段落为计算单位,除了上述因素外,还因为发生全文相似的概率相比较发生段落相似的概率小得多,并且段落相似的计算结果完全能够包含全文相似的计算结果.而语句相似多数情况下则包含了正常的文献引用情况.


如何写信息检索学位论文
播放:32129次 评论:5799人

2013年2月11第33卷第2期11现?代?情?报11JournalofModernInformation11Feb.,201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.,201311Vol.33No.22文本的结构化表示法

2.1现有的文本表示法

在探讨文本相似性计算方法之前,首先回顾现有的文本表示方法.在信息检索领域内,文本的表示主要是采用向量空间模型表示法[8].其思想是:将某个搜索系统中索引项的集合T表示为:T等于{t0,t1,等ti,等

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)