当前位置 —论文政治— 范文

信息检索有关论文范文资料,与信息检索与信息抽取差异性探析相关毕业设计论文

本论文是一篇信息检索有关毕业设计论文,关于信息检索与信息抽取差异性探析相关大学毕业论文范文。免费优秀的关于信息检索及信息及计算机方面论文范文资料,适合信息检索论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

[摘 要] 通过发表论文、会议组织、出入口、关键技术、发展趋势等方面对信息检索与信息抽取进行比较分析,发现信息抽取与信息检索有着质的不同.信息抽取不是信息检索的发展方向,但信息抽取技术可以很好地应用于信息检索系统.分析两者之间的差异有利于研究的深入,理清它们的关系有利于共同促进.

[关 键 词] 信息检索 信息抽取 命名实体识别 模式匹配 规则抽取

[分类号] G35 TP391

李保利等人从功能、处理技术与适用领域等三个方面介绍了信息检索与信息抽取的不同.李芳等人在阅读大量相关文献的基础上,简要介绍了信息抽取、信息检索与自动文摘的区别,认为信息抽取是“更高级的信息检索”.文献[3]分析了信息检索与信息抽取的特点和不足,认为信息检索技术的研究主要侧重于语料库的方法,信息抽取技术的研究更侧重于自然语言的理解,基于符号的处理方法,并最终提出了一个结合两者优势的信息获取模型.

然而笔者认为,信息抽取不是信息检索的高级阶段,它并不能代表信息检索的发展方向.信息抽取可以应用于信息检索,提高检索质量与精度,反之,信息检索的应用也会对信息抽取提出更新的挑战.

1.信息检索与信息抽取的学术关注度差异

在中国知网上检索相关文献(题名或关 键 词精确匹配),关于信息抽取的第一篇文章为1997年刊登在《情报学报》上的《基于信息抽取和文本生成的自动文摘系统设计》;关于信息检索的第一篇文章为1980年刊登在《情报科学》上的《全息情报检索J系统简介》;关于文献检索的第一篇文章为1976年刊登在《武汉大学学报(理学版)》的《怎样查找科技文献资料》.从1997至2006十年间关于信息抽取的文章共393篇,年均39篇,关于信息检索的文章达到6269篇,年均627篇,是信息抽取的16倍.近10年来信息检索与信息抽取的文章发表数量如表1所示:

从绝对数量上看,信息检索的文章远远多于信息抽取,甚至高出一个数量级.信息抽取的研究起步比较晚,只有10年的时间,而信息检索的研究比较成熟,已有几十年的时间.关于信息抽取的文章,增长最多的时候出现在2004与2005年,分别增长29篇与3l篇.关于信息检索的文章,每年的增量都在100篇左右,只有2005年出现了很小的负增长,而增长率最高的时候出现在2000年前后,从1999年到2001三年间保持着30%左右的增长.为了能在同一幅图里显示信息抽取与信息检索文章的增长趋势,把信息检索的文章数量进行缩小,缩小到与信息抽取的文章处于同一数量级(每年文章数量除以16),如图1所示:

从图1中可以看出,信息检索得到了持续的关注,从1998年开始迅猛增长,增长的原因主要是搜索引擎的崛起,带动了整个信息检索领域的新发展.而信息抽取从20世纪90年代末开始得到关注,从2003年开始得到迅速发展.目前信息抽取的增长势头非常迅猛,而信息检索相对平稳一些.如果说10年间信息抽取的研究经历了从无到有的过程,那么信息检索的研究就是从弱到强的过程.

2.信息检索与信息抽取的相关会议

关于信息检索的国内会议比较多,其中包括:中国科技情报学会计算机情报检索专业委员会从1980至1986年举办了5届全国机器检索学会交流会,该系列会议后来改名为全国计算机情报检索学术讨论会,后来再次改名为全国计算机信息管理学术讨论会;中国中文信息学会信息检索与内容安全专业委员会举办的全国信息检索与内容安全学术会议,今年将举办第三届会议;随着搜索引擎的迅速发展,关于搜索引擎的会议也显得越来越重要,中国计算机学会互联网专业委员会举办的全国搜索引擎和网上信息挖掘学术研讨会,2007年已举办了第五届;另外,微软亚洲研究院联合清华大学、香港中文大学于2004年共同承办了首届亚洲信息检索研讨会.

关于信息检索的最有影响力的两个国际会议组织当属TREC与INEX.TREC由国际标准和技术委员会及美国国防部共同资助,每届参会的人数很多,提供丰富的评测标准与实验数据,是目前最权威的检索评价会议;INEX由DELOS数字图书馆网络组织和IEEE计算机学会资助,主要针对基于内容的XML检索提供统一评价程序.这两大会议是国际上公认的权威评测机构,而国内关于检索方面的评价还很少,全国搜索引擎和网上信息挖掘学术研讨会近年来主要是针对分类进行评测.

信息检索会议举办得如火如荼,但以信息抽取命名的会议在国内还很少,比较有影响力的是微软亚洲研究院于2005年举办的信息抽取技术暑期研讨班.国际上比较有影响力的当属MUC,它是20世纪80年代末由美国国防部的DARPA发起的,旨在通过一系列国际化的研究系统测评,来推动信息抽取的研究,提高信息抽取的能力,目前已举办了7届会议.

信息检索不仅有大量的学术论文与会议组织,还有成熟的理论模型与经典著作,而信息抽取的理论模型尚不成熟,也尚未出现经典著作.信息检索领域最经典的著作当属RicardoBaeza-Yates,BerthierRibeiro-Neto等人著的《现代信息检索》(ModemInformationRetrieval).信息检索的理论模型主要有概率模型、布尔模型、向量模型和逻辑模型.

3.信息抽取与信息检索的出入口

信息检索强调对检索入口进行控制,并不对检索出口进行控制,也就是说,信息检索策略的调整只能决定检索结果的多与少,并不能决定每条检索结果的大与小.通过构造检索表达式与指定检索范围等策略来决定检索结果的记录数,而不能对某条记录的内容进行抽取.例如,要查找中国所有自然语言处理方向的博士生导师,利用搜索引擎进行检索,用户需要遍历每一个网页,然后进行人工汇总.如果将信息抽取技术应用于搜索引擎,在检索之前可以指定内容的范围,也就是说会有两个检索输入框,第一个为检索入口,每两个为检索出口,检索入口输入“自然语言处理方向博士生导师”,检索出口输入“姓名、所在单位、专业、年龄、招生人数、考试科目”等信息,利用信息抽取技术就会直接显示出一个二维列表,用户只需阅读一个网页,这种搜索也称之为列表式搜索.

信息抽取不同于信息检索,其粒度要比信息检索的粒度小――信息检索以篇为单位,信息抽取以篇中的信息单元为处理单位.信息检索一般返回整篇文献,而信息抽取返回信息的某个单元;信息抽取存在对与错的问题,如抽取的名词要么是人名,要么不是人名,不存在人名的贴近度问题.而信息检索存在好与坏的问题,是一个程度问题,我们称之为召回率,信息检索所查到的文献,有完全符合需求的,有基本符合需求的,有不怎么符合需求的,所有返回文献的准确率是线性的、连续的.

信息检索的最终用户是人,而信息抽取的用户是计算机.一般来讲,信息检索由人构造检索式,通过系统进行检索,得到检索结果由人来查看,整个过程中体现着人机交互;而信息抽取一般是系统根据模板和预先设定的规则,通过分析文本抽取需要的内容,信息抽取系统一般不单独使用,往往是为其它系统提供技术工具,例如为信息检索、自动分类、自动问答等应用系统解决某些特定的问题,信息抽取过程往往不需要人机交互.

信息抽取按抽取的数据对象结构化程度分为三类:①以PDF文件代表的非结构化文件,利用文件结构、字体、换行符等方面进行分析并抽取,PDF文件只有文件结构信息,没有任何关于内容的信息,而目前全文数据库大都以PDF为存储格式,因此非结构化文件的信息抽取意义重大,难度也很大;②以网页文件为代表的半结构化文件,即以标记语言为格式的文件,按照标记程度分为HTML和XML.基于XML文件对象的信息抽取主要使用DTD以及DOM树附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取.标记信息有两种:一种是HTML标签标记,如“(title)(title)”,一种是文

1 2 3

信息检索有关论文范文资料,与信息检索与信息抽取差异性探析相关毕业设计论文参考文献资料:

政治建设论文

初中优秀政治论文

政治参与论文

高一政治小论文

高中政治创新论文

中学生政治论文

政治学核心期刊

企业思想政治工作论文

九年级政治论文

政治论文500

信息检索与信息抽取差异性探析WORD版本 下载地址