当前位置 —论文—政治— 范文

关于信息检索方面论文范文集,与语义检索综述相关本科毕业论文

本论文是一篇关于信息检索方面本科毕业论文,关于语义检索综述相关毕业论文开题报告范文。免费优秀的关于信息检索及语义及本体方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘要　随着语义网技术的发展,语义检索已成为研究热点,其旨在克服传统网络检索技术的局限性,支持知识检索.在对现有研究与应用调研的基础上,对当前语义检索研究进行综述,详细分析两类语义检索研究：语义支持的检索及语义网资源检索,并进一步分析后者三种不同的研究方向：语义网文档检索,实例检索和关系检索.

关键词　语义检索　语义网　本体　信息检索

分类号　TP391

1　网络信息检索的局限与语义检索

目前网络检索的实现技术主要有两种：一种是依赖于编码处理,通过分类模式来描述信息资源,从而实现检索；另一种是通过全文检索,查找文本中含有用户指定词语的信息源.其应用的体现分别为基于分类目录的搜索引擎和全文搜索引擎.前者虽然基于人工处理,准确性较高,但它更适合用于网络信息资源的浏览和导航；后者实现较为方便,适应了对迅速增长的海量网络信息资源进行自动处理的需要,成为网络信息检索的主要途径.但是用户在检索中始终面临不少困难,如：检索结果的过载和低查准率,用户负担重；检索结果及其排序不一致,且与用户使用的查询词汇形式及其组合形式高度相关等.究其原因,统计意义上的词型匹配难以支持对网络信息资源的有效检索利用.因此研究者们将目光投向了对词形背后的意义的挖掘上,探索实现基于概念匹配的检索技术和方法.

早在上世纪80年代对语义检索的讨论就出现在SIGIR会议论文中,但语义检索研究始终受制于语义信息处理发展水平的局限.随着自然语言处理、人工智能的发展,尤其是语义网技术的兴起与发展,语义检索研究自上世纪末以来得以迅速发展.尽管到目前为止对语义检索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对信息资源的语义处理实现效率更高的检索.语义信息的提取和处理可以是基于语义网方法与技术的,也可以是基于自然语言处理技术的.目前,前者在语义检索研究中相对更为普遍.事实上,正是由于语义网的出现与发展,才使语义检索的研究更加得以明确并发展如此迅速.

2　基于本体的信息资源检索

本体是语义网技术的核心部分,承担着语义表达的关键任务.本体在传统信息检索中的应用可促进从词型匹配到概念匹配的转变.从处理环节来看,它体现在两个方面：查询处理与文档标注及索引.

2.1　基于本体的查询处理

基于本体的查询处理包括查询消歧与查询扩展.通过消歧,明确查询的确切所指,准确反映用户的信息意图,继而通过加入与其语义相关的其他概念来实施扩展.许多研究中利用了语言本体(如WordNet),通过其所提供的词的不同义项来实现查询消歧,通过其所蕴含的同义、整分、上下位等词汇关系来实现查询扩展.支持两种处理模式：查询消歧和扩展、检索结果后分类控制.前者是系统在查询消歧的基础上将某义项的上位词或下位词加入以扩展查询；后者则是系统先以常规方式处理用户查询,再对检索结果基于用户指定的查询义项进行分析和加权.则在词义消歧的基础上,利用WordNet根据查询词义抽取子概念图来实现查询扩展.子概念图作为查询的上下文信息用于支持对由普通搜索引擎返回的初次结果的过滤,以选出相关文档.提出的查询消歧方法包括三步：首先用WordNet中的义项及同义词簇,对查询用词进行两两配对,即在固定其中一词的情况下,与另一词的所有义项进行组合,得到若干种不同的组合情况,反之亦然其次将这些组合作为提问通过AltaVista进行搜索,并根据命中数对它们进行排序；最后,以WordNet中对相关义项的注释为上下文,计算排序在前的配对词间不同义项组合的语义密度,从而决定查询用词所指的确切概念.国内基于WordNet汉化而建设的中文概念词典(CCD)也在信息检索研究中得到了应用.

如何写信息检索硕士学位论文
播放:27751次评论:4772人

本篇论文网址:http://www.sxsky.net/zhengzhi/050914767.html

此外,各种自建的领域本体也被应用于查询处理.以一个有关人、地、事件、组织等的本体为基础来实现查询消歧,为每一个初始查询结果提供一个特别链接,用户通过点击这些链接来向系统确认该结果代表的概念符合其查询意图.构建了一个三层本体模型,分别为概念层(即按等级层次组织起来的概念)、语言层(即与概念对应的表达形式)、出现层(即对应于表达形式的具体字串).在其可视化本体浏览提问接口中,用户可在本体层级体系中点击选择合适的概念.系统会自动执行查询扩展,将用户指定层级范围内的下位概念以及相关关联概念增加进来.扩展后的查询通过上述三层本体模型从抽象到具体被依次转换,最终变为由文档中实际出现的具体词汇构成的查询式.

2.2　语义标注文档的检索

语义标注文档检索

关于信息检索方面论文范文集的一种普遍思路是在对文档进行语义标注与索引的基础上,先进行实例检索,再据此返回所有以检出实例标注的文档信息.此外,也有其他不同方案.引入了向量空间模型,采用了基于概念级的向量空间文档表达,还设计了文档排序算法.在进行标注时以文档为单位,将其作为一个概念类的实例来进行处理.它设计了一种独特的索引和检索方法,以从文档全文和其语义标注数据中抽出的内容描述符(词)来代表文档,并建立索引记录.这样的索引可支持基于关键词或语义标注信息的检索.根据自建的历史领域本体对文档进行实例标注以构成其语义上下文信息(含概念与时间信息),并认为用户浏览的当前资源的上下文信息可代表其真实查询意图.检索时,用户首先通过传统的全文检索获得一个初始资源或自行提供一个初始资源.然后系统据此反馈该资源的上下文信息,并以嵌入文档中的链接供用户选择.当用户点击链接时,系统即将当前上下文信息作为新的查询,对其进行基于本体和规则的查询扩展,在对系统全部文档先进行过滤之后,再进行最终的检索匹配.

3　语义网资源检索

语义网是一个基于某种知识表达语言(如RFD(S)、OWL等)的、机器可处理的语义网文档集合.从逻辑上看,它不再仅是一个普通文档的网络,而是一个资源(可以是各种媒介资源和现实世界中的其实对象,如人、地方、组织、事件等)及其语义关系的网络,表现为本体文档,实例数据和各种语义关系.

3.1　本体文档检索

本体文档检索旨在找到含有特定类或属性的本体文档.普通搜索引擎,如Google,可以通过指定文档类型为RDF等方法来搜索本体文档,但其根本问题是不能识别本体文档中的结构化语义标注信息,因而也无法将它们与普通文本信息区别对待.所以在检索的过程中无法将真正符合需要的本体文档与那些只是含有检索词的本体文档区分开来.这正是对本体文档进行检索需要解决的问题.

解决问题的一种思路就是对本体文档进行适用于普通搜索引擎的改造处理.就是基于这种思路,通过对RDF文档进行一定处理使其可被普通搜索引擎索引和检索,而同时又能在某种意义上发挥其语义信息的作用.它的关键技术Swangling能将语义信息编码成普通文本,并将其作为新的陈述加入到原RDF文档中(对于以三元组表示的查询,也以相同编码方法处理,将其变为普通文本).这样提问与文档的匹配就可以按传统的方式进行.

另一种思路则是探索新的本体搜索方法和技术.使用了

1 2 下一页

关于信息检索方面论文范文集,与语义检索综述相关本科毕业论文参考文献资料：