信息检索相关论文范文文献,与隐含语义索引在吉林省农业知识问答系统中的应用相关论文范文

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文是一篇信息检索相关论文范文,关于隐含语义索引在吉林省农业知识问答系统中的应用相关本科毕业论文范文。免费优秀的关于信息检索及数据库及农业技术方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:为了解决现有农业知识问答系统功能及业务流程中存在的一些问题,将隐含语义索引技术应用于吉林省农业知识问答系统中.该技术可以增强或消减词语在文档中语义的影响力,使文档之间的语义关系更为明晰,在一定程度上实现了自然语言检索,消除了词语同义性和多义性所造成的影响,从而取得更好的检索效果.

关 键 词:隐含语义索引;吉林省;农业知识;问答系统

中图分类号:TP391文献标识码:A文章编号:0439-8114(2011)13-2740-03

ApplicationofLatentSemanticIndexinAgriculturalKnowledgeQuestionAnsweringSystemofJilinProvince

XIAOYan-hua,WANGQing-lan,BIYe-li,WANFa-ren

(AgriculturalEconomyandInformationServiceCenter,JilinAcademyofAgriculturalSciences,Changchun130124,China)

Abstract:Thelatentsemanticindextechnologywasappliedtosolvesomeproblemswiththeexistingfunctionandintheprofessionalprocessinagriculturalknowledgequestionansweringsystem.Thistechnologycouldenhanceorreducetheinfluenceofwordsonthesemanticinthedocumentanditalsocouldmakethesemanticrelationshipsmoreclear,therebyrealizedthenaturallanguagesearchtoacertainextent.Theinterferencefromidentityandpolysemanticswaseliminatedandbettersearchresultsobtained.

Keywords:latentsemanticindex;Jilinprovince;agriculturalknowledge;questionansweringsystem

农业作为基础产业,是社会信息化不可或缺的一部分,所以农业必然会受到以计算机网络技术、多媒体技术和智能技术为特征的信息化浪潮的洗礼.目前农业科技人员和农民经常借助各种搜索引擎进行农业信息搜索.由于搜索引擎不是为农业领域设计的,多数搜索的结果往往不能满足他们的需求,农业知识问答系统正是在这种情况下发展起来的.

从大量农业信息中迅速而准确地获取最需要的信息是农业知识问答系统发展的困难之一.如何使现有的吉林省农业信息资源得到充分有效地利用,提高吉林省农业信息化服务的质量,已经成为农业科研人员研究的一个热点.隐含语义索引(LSI)是近年来逐渐兴起的不同于关 键 词检索的搜索引擎解决方案,其检索结果的实际效果更接近于人的自然语言,在一定程度上提高了检索结果的相关性,目前已被逐渐地应用到图书馆、数据库和搜索引擎的算法当中.隐含语义索引通过对原文档库的词-文档所建立的矩阵的奇异值分解计算,进而取其前k个最大的奇异值,然后用对应的奇异矢量构成一个新矩阵,用其近似地表示原来文档库的词-文档矩阵.因为新的矩阵消减了词和文档之间语义关系的模糊度,所以这种方法更有利于信息检索.

1隐含语义索引的基本原理

因为文本和词汇之间存在着一定的相关性,所以若干篇文本和若干个词汇由他们之间的相关性构成语义模型;使用数学的算法和计算机技术,分析此模型并对其进行计算和处理,保留文本与词汇间最主要的相关性,去除其他冗余、次要的影响因素,于是得到了优化后的模型;最终构成的语义结构和原始的文本、词汇的相关结构进行比较,规模要小很多,并且还保留了其中主要的相关性,用此模型挖掘文本和词汇的隐含关系;在即将进行的检索中,用该语义结构作为基础,统计出词汇与文本间的隐含相关度[1].

在向量空间中,每个文档都可以表示成词的向量空间矢量Di=(wi1,wi2,等,wim)(T1,T2,等,Tm)T,这样每个词条也就可以表示为文档空间的矢量Tj=(w1j,w2j,等,wnj)(D1,D2,等,Dn)T,词条和词条之间的相似性用向量夹角余弦来计算.

在隐含语义索引算法中,一个文档库可以被表示成一个m×n的词-文档大矩阵A.其中n表示库中的文档数,m表示库中包含的所有不同的词的个数.即矩阵A的每一行对应一个不同的词,矩阵A的每一列对应一个文档.A表示为:


该文出处:http://www.sxsky.net/benkelunwen/060401681.html

A=[aij],1≤i≤m;1≤j≤n

矩阵中的元素aij是文档Dj中的特征项Ti出现的频度或其权重.实际应用中,因为词与文档的数量可能会很大,词在单个文档中出现又非常有限,所以A一般是高阶的稀疏矩阵.

这时利用向量代数的相关知识证明得知,可以把矩阵A分解成三个矩阵的乘积,即:

A=UΣVT

式中,矩阵Σ表示对角线矩阵,矩阵A的奇异值是对角线上的元素.矩阵U和V的列向量都是正交归一化的.U是m×r的“左奇异值向量矩阵”;V是r×n的“右奇异值向量矩阵”,r是矩阵A的秩,并且有:

U=VTV=In(In为n阶单位矩阵)

矩阵A的分解过程[4]如图1所示.

前k个列构成A的近似矩阵Ak,其秩为K.这样就可以得到一个新的近似分解矩阵Ak:

Ak=Uk×Σk×VTk

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)