信息检索相关论文范文数据库,与中文文本相似度在商业网络中的应用相关本科毕业论文范文
本论文是一篇信息检索相关本科毕业论文范文,关于中文文本相似度在商业网络中的应用相关硕士毕业论文范文。免费优秀的关于信息检索及文本及数据库方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
1],j等于1,2,等,L(B)-1,C[1][j]等于C[0][j],j等于1,2,等,L(B)-1
elseC[1]
信息检索相关论文范文数据库
i等于i+1(ifi等于L(A)-1,break)
Step4:采用递归算法,读入最长公共子序列矩阵C[L(A)][L(B)]、i、j,i等于L(A)-1,j等于L(B)-1,if(i等于0||j等于0)&&S(A)[i+1]等于S(B)[j+1],输出S(B)[j+1].ifS(A)[i+1]等于S(B)[j+1],调用递归(参数为C,i-1,j-1)并输出S(B)[j+1],elseifC[i][j+1]>等于C[i+1][j],调用递归(参数为C,i-1,j),反之,调用递归(参数为C,i,j-1).
Step5:计算相似度,最长公共子序列的长度为上述递归算法得到的序列长度,去掉序列A和序列B中出现的重复子序列,用最长公共子序列计算公式计算出两个文本之间的相似程度.
本算法可以用于多文本之间的两两比较.
四、实验结果
为了检验算法分析文本的相似能力,我们使用算法分析了网站中文档之间的相似性,选用的实验数据――文本库是来源于某网站的数据库,数据库采用的是MySQL数据库,测试样本是数据库中的文档.
我们对数据库中的文本进行分组得到11组文档组,每组有2~6条文档题目为偏向一个主题的相似性题目,接下来将每一组中的几个题目对应的文档进行分词和停用词处理,然后用算法进行相似度的计算,计算包括段落间的计算和整篇文档之间的计算,如表所示,计算结果出现相似度高的文档数一共有49篇,通过人工检查实际文档内容相似度高的文档数为45篇,因此可以得出识别正确率为91.84%,查全率为100%.说明本文算法具有一定的有效性.
五、结论
本文所提出的算法可以计算文本之间的相似性,识别出相似性高的文本数正确率较高,对于发现文本的相似性具有一定的作用,通过将文本进行相似性的分析,可以将有用信息进行分类,某一个类别的信息可以用于解决某些商业问题或者可以进行某种决策,那么在得到新的信息,可以通过相似性的分析,将这些新的信息归到某一类别中,那么针对这些新的信息可以知道人们如何决策或者去解决相对应的哪些问题,提高效率,这也是文本相似度作为一种商业技术的广泛应用.
参考文献:
[1]G.Salton,A.WongandC.S.Yang.VectorSpaceModelforAutomaticIndexing[J].CommunicationsoftheACM,1975,18(11):613~620
[2]DeerwesterS.,Dumais,Furnas,etal.Indexingbylatentsemanticanalysis[J].JournaloftheAmericanSocietyforInformationScience,1990,41(6):391~407
[3]潘谦红王炬史忠植:基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651~655
[4]张焕炯王国胜钟义信:基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,19:21~22
[5]金博史彦军滕弘飞:基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291~297
[6]刘小军赵栋姚卫东:一种用于中文文本查重的双因子相似度算法[J].计算机仿真,2007,24(12):312~314
本文url http://www.sxsky.net/guanli/00354750.html
[7]黄姝怡:基于知网的中文文本相似度计算研究[D].广州:中山大学,2008
信息检索相关论文范文数据库,与中文文本相似度在商业网络中的应用相关本科毕业论文范文参考文献资料: