语义类有关论文范文集,与一种基于领域本体的语义检索系统的设计与实现相关本科毕业论文范文
本论文是一篇语义类有关本科毕业论文范文,关于一种基于领域本体的语义检索系统的设计与实现相关在职毕业论文范文。免费优秀的关于语义及信息检索及本体方面论文范文资料,适合语义论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
[摘 要]基于领域本体的语义检索被认为是解决目前信息检索领域中所面临的困难的途径之一.从语义推理、查询分析等几个关键方面对基于领域本体的语义检索进行研究,在此基础上设计并实现一个基于领域本体的语义检索实验系统,通过测试表明该系统能够较为有效地实现语义检索,提高检索精度.
[关 键 词]领域本体 语义检索 语义推理 Jena
[分类号]G354
1 引言
以计算机技术、通信技术和网络技术为代表的现代信息技术的飞速发展,改善了信息检索技术的软硬件环境,促进了信息检索理论与实践的发展,同时也给信息检索带来了新的挑战.如何从海量信息资源中快速、准确、高效地检索到所需信息,是现阶段值得关注的问题.用户对高质量信息的需求和利用与信息量急剧增长之间的矛盾,尚未得到很好的解决.而语义检索能适应用户的现实信息需求及其发展变化.领域本体描述了领域知识模型,基于领域本体可以实现语义检索,提高检索精度.
目前有不少关于领域本体的语义检索的理论研究论文,但从实践角度构建检索系统,进行测试和评价的论文还很少.本文将以领域本体为基础,研究基于领域本体的语义检索关键技术,并在此基础上设计并实现了一个基于领域本体的语义检索模型,通过测试对该模型的性能和不足之处进行了分析.
2 相关研究
目前绝大多数搜索引擎以及专业全文数据库,都采用关 键 词检索方式.基于关键字(词)的机械匹配进行检索的方式严重地割裂了字、词间的语义关联,检索过程不包含任何语义信息,导致用户查询获得的检索结果不尽如人意.这种查询机制缺乏智能性和知识性,越来越难以满足人们日益增长的知识需求.
为了克服关 键 词检索的不足,学者们提出了另外一种称为概念检索的检索方法,这种方法通过概念词典对用户的检索提问进行规范、查询和扩展来理解用户的检索意图.概念词典一般是由专家手工定义的专业词表或者通过机器学习生成的关联概念空间.概念检索方法虽然克服了基于关 键 词检索中不考虑语义信息的局限性,但不足之处在于概念词典表达的概念关系有限,而且无法表现公理、规则等.
以上两种方法可以看作是初级的语义检索方式,虽然能在一定程度上解决基于关 键 词检索方式的不足,但对于能够理解用户的检索意图,理解关 键 词所表达的语义这些高级功能还无法实现.因此,需要有一种比叙词表、关联概念空间更为丰富的语义表达工具作为检索的支撑,而本体的特性恰好适合于知识表达,能够充分描述知识模型,支持语义推理,同时采用通用的知识建模语言,更适合网络环境下的知识共享和互操作.
3 系统设计
3.1 设计原理
基于领域本体的语义检索系统的设计核心,是在查询和检索资源中引入领域本体层作为匹配和推理的核心部件.与传统的检索方法相比,增加了一个本体检索推理层,其工作机理如图1所示.领域本体在构建的时候已经对该领域的概念进行了分类,每个类别下有具体的实例,每个实例赋予了一定属性关系.系统在获得了用户的检索关 键 词之后,通过语义推理以及RDQL语句的构建,将会对本体库发出查询指令,如果在本体库中存在满足条件的实例,那么该实例就会被检索出来,从而使得计算机“理解”用户的查询意图,本体的查询结果将作为二次检索词对文献资源库进行检索.
3.2 总体设计
根据上述原理,本文设计了一个基于领域本体的语义检索系统,该系统主要由以下四个模块组成:
提问分析模块.主要作用是对用户的提问式进行处理,过滤停用词,抽取具有检索意义的实词并且判断用户的提问中心.
语义推理模块.主要作用是根据用户的提问词进行语义关系判断,判断出各个提问式之间隐含的语义关系,明确用户的真正检索意图.
查询分析模块.在语义推理的基础上,根据语义关系,自动构建RDQL查询语句,对本体库进行查询,并且把查询结果返回给用户.
本体管理模块.主要是本体的浏览、导航和可视化显示作用,通过本体浏览模块可以清晰地发现概念之间的关系,可视化组件可以对领域本体中的概念关系以动态图的形式直观展现出来.
4 系统实现
本文采用Java语言实现了一个基于领域本体的含义检索系统,该系统所采用的开发环境是Windows2000,JDKl,5,开发工具为JBuilder2005以及语义开发包Jena2.3.
4.1 提问词分析模块
抽词.抽词模块首先对用户的检索式进行处理,抽取其中有检索意义的实词.
检索词标注.利用领域本体中的类别信息对检索词进行标注,将具体实例标注为其所属的类,这是对检索词进行的规范化处理,是建立计算机理解检索词的基础.
抽取提问中心.抽取用户的提问中心,是对用户的检索词进行语义判断的基础.在用户的检索式中,提问中心通常是抽象词,而具体的实例则是对提问中心的限制或描述.抽取提问中心的方法是利用领域本体的类(Class)对检索式进行抽取,抽取到的类名词则为提问中心.
4.2 查询分析模块
传统的信息检索模型是将各个检索词看作是孤立的,忽略检索词之间的语义关系,这也是造成基于关 键 词检索的检索模型在一定程度上返回大量无关检索结果的原因之一.语义关系推理模块正是通过建立语义推理引擎,来判断用户检索词之间的语义关系,对用户的检索提问进行计算机理解.
4.2.1 建立推理引擎的目的本体的查询需要借助RDQL语言,但该语言本身不具备推理功能,只能查询模型中有直接关系的数据,建立推理引擎的目的是将本体中具有隐含语义关联的数据推理出来,获取所有相关联的数据作为P,DQL查询的数据库.推理引擎借助于本体信息及相关的公理描述可以从基本的RDF描述中获取附加的断言(Assertion),经过推理处理可以获得RDF有向图中的所有语义闭包.当用户提交查询从RDF数据模型获取数据时,不仅能得到数据模型本身所含有的数据,而且可以得到由推理机制所产生的知识数据.
4.2.2 建立推理引擎的方法本文中采用的推理方法是利用Jena包中通用规则推理机制,采取工厂化方法(GenericRuleReasonerFactory)获得通用规则推理机,从而引入事先写好的形式化的规则库文件对领域本体库进行推理.之所以选择通用规则推理机是因为考虑到推理机所蕴涵知识的意义和推理效果,RDFS规则推理机(RDFSRuleReasoner)、OWLLite推理机(OWLFBReasoner)等内置推理机对领域本体库进行推理,得出的是基于描述逻辑的推理结果.
4.2.3 建立语义模式库抽取本体库中所有的语义属性(主要针对“ObjectType”属性),按照“Domain,属性名,Range”的形式建立语义模式三元组构成语义模式库.根据语义模式库,经过相关计算就可以确立标注后的检索词之间的语义关系.
4.2.4 确立检索词的语义关系本体中的三元组都是“主语,谓语,宾语”的形式,用户的检索提问通常都是对主语或者宾语提问.通过步骤4.2.1的语义推理已经得到RDF有向图的所有语义闭包,因此若本体库中存在用户提问的检索结果,至多通过两个三元组组合便可以得到检索结果.
本文利用传统的向量空间模型构筑检索词之间的语义关系,将标注后的检索词以及语义模式库中
语义类有关论文范文集,与一种基于领域本体的语义检索系统的设计与实现相关本科毕业论文范文参考文献资料: