此文是一篇信息检索论文范文,信息检索类有关论文范例,与面向主题的Web信息融合模型相关在职研究生毕业论文。适合不知如何写信息检索及服装行业及信息方面的论文格式专业大学硕士和本科毕业论文以及信息检索类开题报告范文和职称论文的作为写作参考文献资料下载。
[摘 要 ]评述国内外现有Web信息融合的研究成果,分析其中存在的主要问题与不足.针对现有Web信息融合对多维度、多粒度综合查询分析和决策支持不足的问题,分析面向主题的Web信息融合的基本原理,设计面向主题的Web信息融合模型,该模型由Web仓库模型、Web信息融合功能模型和人机交互接口三层组成,并探讨各层工作原理和需要实现的关键技术,最后给出原型系统实现及融合查询示例.
[关 键 词 ]面向主题 Web信息融合 模型 技术
[分类号]G354
1.引言
随着Web2.0技术的发展,企业运作日益向Inter-扩展,企业Web信息的容量和多样性呈爆炸式增长,Web信息日益成为企业决策的重要依据.由于Web信息具有半结构化和非结构化的特征,Web信息的急剧增长在为人们获取所需信息和知识带来更多机遇的同时也带来了更大的挑战.传统搜索引擎的性能已达到极限,其基于关 键 词 匹配排序来检索Web信息的工作原理存在检索结果信息冗余和不精准的问题,无法满足用户基于主题查询的需求,更无法适应企业决策的需要.信息融合借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息.信息融合技术已在生物、经济和军事等领域得到广泛应用.信息融合技术为Web信息处理提供了新的途径,但其研究成果主要针对结构化数据.
现有Web信息融合研究主要集中在多源Web信息检索融合和多Web文档的知识融合两方面,对应于传统信息融合中的数据级融合和特征级融合,不支持信息的多维度和多粒度查询与综合分析,远远不能满足用户从Web有效获取信息进行决策的需要.
2.国内外研究综述
2.1 信息检索融合
信息检索融合将多个搜索组件的文档结果集视为多源证据,综合利用和声效应、撇取效应和/或黑马效应,基于综合评分或排序对多源结果集中的文档进行优化组合,为用户提供更高质量的搜索结果.采用的主要方法包括:
2.1.1 基于统计的方法 分为评分融合和排序融合两类.评分融合算法根据各源(即搜索组件)的性能赋予其权重,用线性组合计算出现在多源结果集的文档的综合评分,将综合评分最高的N个文档返回给用户,如WebFusion算法.基于排序的融合算法对多源结果集按相关度排序后采用轮循的方式从结果集抽取文档返回给用户,如SR融合算法.
2.1.2 基于人工智能的方法 主要是利用人工神经网络等人工智能技术进行文档聚类与模式识别.如文献利用人工神经网络自组织映射(sOM)算法对Web网页进行聚类,识别各类主题之间的关系,从而实现搜索结果的聚合.
怎么写信息检索毕业论文
播放:23685次 评论:3014人
2.1.3 基于统计和人工智能的混合方法 基于统计的方法中文档评分函数的形式,文档的内容、链接和结构三方面各自的权重,以及各搜索组件的权重对融合结果有很大影响,通常结合人工智能的方法确定,如文献采用模式识别和启发式学习调整搜索源权重.
2.2 基于多文本的知识融合
基于多文本的知识融合将搜索结果集中的多个文档视为多源证据,主要利用语义本体和自然语言处理技术分析多个文档,利用基于逻辑的规则、基于本体的映射与合并消除其中的知识冗余、知识不完整性和知识冲突,为用户提供具有一致性的知识.根据处理对象的结构化程度可分为半结构化文本的知识融合和非结构化文本的知识融合.
2.2.1 半结构化文本的知识融合 主要对XML格式的信息进行融合.如文献采用语义本体技术构建了面向半结构化信息(XML格式)的知识融合模型,文献提出了一种将融合规则与知识库相结合的对半结构化信息进行融合的方法.
本文地址 http://www.sxsky.net/geshi/428757.html
2.2.2 非结构化文本的知识融合 主要对HTML格式和其他文本格式的信息进行融合.大致可分为两类:一是基于Web的本体学习,从网页学习本体概念及概念间关系、获取概念属性和填充本体实例;二是多文档的自动摘 要 系统,核心问题是摘 要 旬的抽取与融合.
2.3 面向决策的信息融合
这方面的研究成果很少.中国科学院Yu L等人提出面向Web挖掘的信息融合工具――Web仓库,设计了Web仓库体系结构和EFML处理模型,在信息的融合上采用中介模型.但作者的讨论仅限于Web仓库的概念模型与工作机制,没有深入讨论具体的信息融合模型与方法.
2.4 研究现状总结
总结国内外研究现状,Web信息检索融合的研究成果相对成熟.由于半结构化文本实现模式(Sche-ma)映射相对容易,结合融合规则和知识推理可以获得较好的半结构化文本知识融合效果.较困难的是非结构化文本的知识融合,原因在于机器理解自然语言仍有难度,目前的自动摘 要 系统会产生较大的信息损失.基于文本的语义标注进行知识融合是解决问题的一种途径.现有Web信息融合算法基本上都是面向Web查询设计的,不支持多粒度与多维度查询,无法满足决策支持的需要.面向主题的Web信息融合模型与技术是亟待研究和解决的问题.
3.面向主题的Web信息融合模型设计
面向决策的信息融合必须支持信息的多粒度与多维度查询和分析,其关键基础是多维信息模型的构建,并通过维度的分类关系(即对维度继续细分得到新的子维度)反映信息的多粒度特征.由于Web信息融合的对象,即Web信息,具有半结构化和非结构化特征,无法直接用于决策支持,其关键是找到一种有效的方法,根据决策主题对相关Web信息进行融合且融合的结果能按多维信息模型进行组织,同时在多维信息模型的基础上可以进一步进行信息的多粒度、多维度融合,以满足决策支持的需要.基于上述原理设计的面向主题的Web信息融合模型如图1所示:
3.1 Web仓库模型
包括Web文档本体模型、Web仓库信息结构模型、基于代数的操作语言三个方面,具体原理如下:
3.1.1 Web文档本体模型建立Web文档本体元模型,设计包括Web文档本体元模型、Web文档概念层、Web文档属性层(包括概要属性、链接与结构属性、内容属性和信任属性)、Web文档实例的四层结构框架模型,为非结构化信息向结构化信息的转换提供语义范式,并利用该本体的元模型机制实现面向不同主题的扩充.
3.1.2 Web仓库信息结构模型 采用多维信息模型组织信息,以本体概念为中心,将本体的属性映射为维度,将本体