当前位置 —论文—政治— 范文

数据库方面有关论文范文素材,与检索技术的实现方式看三大全文数据库的相关论文摘要

本论文是一篇数据库方面有关论文摘要,关于检索技术的实现方式看三大全文数据库的相关在职毕业论文范文。免费优秀的关于数据库及图书馆及核心竞争力方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

[摘要]　通过三个有针对性的检索实例对清华同方、万方数据、重庆维普三大全文数据库检索技术实现的特点进行分析,从其目前提供的功能和招聘信息分析它们在竞争中所处的位置,指出全文数据库的三大核心竞争力是：历史数据回溯、当前数据质量和未来增值服务.进而对未来的增值服务进行分析与预测,包括计量分析自动生成系统、句子级文献自动审稿系统、参考文献自动标注系统、观点型搜索,并指出这些系统的实现将使文献服务真正走向知识服务.

[关键词]　全文检索　全文数据库　检索技术　全文数据库商　清华同方　万方数据　重庆维普　核心竞争力

[分类号]　G35　TP391

1.引言

中国期刊全文数据库(简称清华同方)、数字化期刊全文数据库(简称万方数据)、中文科技期刊数据库(简称重庆维普)是国内公认的三大期刊全文数据库.三大数据库之间既有许多相似之处,又各具特色：从检索形式上看,三大全文数据库都支持初级检索、高级检索、专业检索,都支持复杂的逻辑表达式的提问,都支持跨库检索,支持链接导航.但它们也有许多不同之处,如清华同方支持真正的全文检索,而其他两家目前还不能做到这一点.

该文url:http://www.sxsky.net/zhengzhi/050914530.html

目前,讨论全文数据库使用技巧及存在问题的文章非常多,但对全文数据库检索技术的实现以及未来的发展趋势的探讨还很少.本文作者既进行过常规的手工操作,也写过进行自动下载的下载程序.通过对数据库的不断测试,特别是通过某些特殊的、有针对性的系列检索,判断出系统所使用的一些基本的检索技术.进而在对这些技术探讨的基础上,分析并预测这二三大全文数据库商的竞争优势及未来的发展方向.

2、通过针对性的检索实例分析检索技术的实现

目前,信息检索大都致力于对主题检索的支持,却忽略了利用特征与结构的检索.向量分词检索在索引空间、检索效率等方面优于字符匹配型,但柃素质量并不总是高于字符匹配.例如,想查找某一期刊连载的文章.这种检索需求不是主题相关的,而是从特征入手.通常,连载的文章标题后有(上)、(下)或(一)、(二)或(I)、(Ⅱ)、(Ⅲ)等字样.笔者于2006年12月19日分别对清华同方、重庆维普、万方数据的期刊全文数据库在标题检索里精确匹配“(上)”,检索结果分别为301137,269222和6l条.查看结果后发现,清华同方和重庆维普都滤掉了括号,不支持括号作为检索条件,而只有万方实现了用户的检索目的.这就说明前两者是基于关键词的索引,而万方数据并没有使用关键词索引,而是使用单字符索引.

在另一个机构检索实例中,对重庆维普,以“机构等于北大*核心期刊*年等于1989-2006”进行检索,得到23839条检索结果,结果中主要包括西北大学、东北大学、河北大学、湖北大学等,说明重庆维普的机构检索是字符匹配.而从清华同方的数据库中限定1989―2006年期间的核心期刊,选择模糊匹配得到了33027条结果,而精确匹配则只有7条.在通过精确匹配所得到的7条检索结果中,作者单位都是直接写的“北大”,事实上这是一种不规范的写法.也就是说,如果这几名作者使用规范的机构名称的话,使用清华同方精确匹配的检索结果将为0条.而在万方期刊论文库以“1989―2006期刊机构等于北大”作为检索条件,得到43073条检索结果,说明它也是使用字符匹配.也就是说没有一个数据库使用同义词,能够让用户输入“北大”,也能把“北京大学”检索出来.万方数据与重庆维普的机构检索都没有采用分词,直接使用的单字符索引或like检索,如果采用分词的话,就不会出现这种情况.清华同方的模糊匹配结果很多,精确匹配结果却很少,说明模糊匹配采用的是全字符索引或like检索,而精确匹配却是分词后的索引.

检索技术的实现方式看三大全文数据库的参考属性评定
有关论文范文主题研究:	关于数据库的论文范文集	大学生适用:	专升本论文、研究生论文
相关参考文献下载数量:	57	写作解决问题:	如何写
毕业论文开题报告:	论文提纲、论文摘要	职称论文适用:	核心期刊、职称评副高
所属大学生专业类别:	如何写	论文题目推荐度:	最新题目

在第三个检索实例中,在中国期刊全文数据库(清华同方)进行检索,检索范围是1980-2007年的全部数据,检索条件为在篇名中精确检索“图书”,得到21630条检索结果,而把检索词换成“图书馆”后,检索结果却变成了95636条.“图书馆”包含“图书”字样,按常规思维,“图书馆”的检索结果应该比“图书”的检索结果要少,可事实上检索词变长了,检索结果却多了.这说明该数据库的篇名检索采取的不是全字符切分,检索时采取的不是单字索引,而是向量切分,可能是正向最大向量切分.如果进一步把检索词拉长,变成“数字图书馆”,检索结果又变成了4885条,也就是说检索词变长了,检索结果却又变少了.“图书馆”肯定包含“图书”,“数字图书馆”肯定包含“图书馆”,同样的现象,却有不同的结果.为了进一步验证,把检索词换成“数据”,检索结果变成75792条,而改成“元数据”,检索结果又变成了958条,检索词长了,检索结果却变少了,由此断定该数据库采取的不是正向最大向量切分,而是逆向最小向量切分或逆向最大向量切分.因为如果采取的是正向

数据库方面有关论文范文素材最小向量的话,“图书馆”的检索结果就不会比“图书”的检索结果多.事实上,根据汉语中心语靠后的特点,逆向切分比正向切分的准确率要高得多.而万方数据与重庆维普都是遵循词条变长、结果一定会少的原则,因此可以断定是全字符索引.实验过程与数据如表1所示.

为了进一步验证索引的方式,采用二次检索来比较结果的变化.用清华同方数据库标题检索“数据”得到75792条检索结果,从结果中再进行标题检索“元数据”与“元”分别得到958条与1207条,说明对元数据这个词做了三个索引：元、数据、元数据.用“图书馆员”进行标题检索得到3234条检索结果,在结果中再检索“图书”,只有9条,这9条记录的标题中既含“图书馆员”,又含“图书”(独立于图书馆员),在结果中检索“馆员”,只有21条,情况与图书一样.而在3234条结果中分别检索“图书馆”与“员”,其结果都是3234条,说明系统把“图书馆员”切分成“图书馆／员,'’而不是“图书／馆员／”；而在图书馆的95634条结果中二次检索“图书”,得到1425条,说明没有把“图书馆”切分成“图书／馆／”.为了进一步的验证,采用更长的词条进行测试,表2的结果说明“网络信息计量学”被切分成了“网络,信息,计量学／”.如果采用最大向量切分,则不能切分出“网络／信息／”,如果采用正向最小向量应该能切出“计量”.计量学与图书馆一样,却与元数据不一样,把“元数据”切成“元／数据／”,却不把“图书馆”切成“图书／馆／”,说明肯定是逆向向量切分,而且是二次嵌套切分.此外,检查结果还证明系统没有使用MMC(基于上下文的最大向量匹配)进行切分.