数据库方面有关论文范文素材,与检索技术的实现方式看三大全文数据库的相关论文摘要
本论文是一篇数据库方面有关论文摘要,关于检索技术的实现方式看三大全文数据库的相关在职毕业论文范文。免费优秀的关于数据库及图书馆及核心竞争力方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
术文献服务向提供知识服务进军,以引文链接、学术定义、学术趋势等新功能为起点,以回答学术问题、打破以篇为单位的知识组织方式,提供知识点与知识点之间的链接为目标,旨在实现真正的以知识点为处理单元的知识服务,也就是从物理层次的文献单元向认知识层次的知识单元转换“.除了学术定义外,它还会抽取历史发展、分类、特点、方法、关键技术、国内研究进展、国外研究进展、应用前景、实验数据、实验结果等诸多内容,即按照写作的结构把文章所有内容进行模块化抽取;万方数据于2006年推出了知识链接门户,通过作者、分类号、关 键 词字段等提供文献之间的链接;重庆维普也推出了知识频道.数据库商纷纷使用知识概念为知识服务造势,虽然可以从服务观念和目标定位上进行强化,但要实现真正的知识服务还有很长的路要走.实现这一转变的根本是人才,所以通过三大数据库商对人才特别是研发工程师的需求也能看出他们的研发重点和相应进展:①通过招聘信息可以发现他们的研究计划.例如,清华同方的招聘信息中进一步强化需要CNKI文献搜索产品、知识元搜索产品和各种垂直搜索产品的数据采集加工、整合更新和系统开发人才,重点解决文本挖掘、中文信息处理、知识系统等;万方数据招聘研发工程师的要求是跟踪信息技术发展,在信息检索、文本挖掘等相关研发领域开展研发工作;而重庆维普的网站上没有发布招聘研发工程师的信息.②从公司招聘研发工程师的描述中可以看出研发深度的不同.在不涉及商业秘密的情况下,研究专业方向越具体,研究内容越深入,公司的研发力量就越强,推出的产品价值也就越高.因此,从招聘信息可以推断出,目前清华同方的技术研发似乎强于万方数据,而万方数据又强于重庆维普.事实上,通过他们所推出的增值服务,也就是新功能也可以验证这一关系.例如清华同方的知识链接(引文分析)的推出早干万方数据的知识链接.近期清华同方又推出了学术定义、图表搜索、搜索趋势等,这些服务已经开始对文本特别是正文内容进行分析,并充分利用了信息抽取技术.计量分析自动化已经实现了数值的统计计算,尽管还没有实现计量分析报告的自动生成,但以目前的势头来看,相信在不久的将来,也会实现的.③从清华同方招聘研发工程师的任务和要求来看,已不再关注传统的信息检索技术,而是要解决文本挖掘、信息抽取等问题,以实现自动分类与聚类、自动摘 要以及问答系统等目标.
4.全文数据库的三大核心竞争力
期刊全文数据库的竞争主要体现在三个方面:历史数据的回溯;当前的数据质量;未来的增值服务,即数据的深加工程度.
对于历史数据的回溯建库问题,目前中国知网走在前列,很多期刊已经回溯至创刊号.历史数据除了扫描全文外,重点是关 键 词的提取与摘 要的自动生成以及自动分类(或归类),因为在20世纪90年代前,很多期刊的文章都没有关 键 词,更不用说摘 要了.
当前的数据质量主要反映在数字化程度的比例.就是从编辑部那儿得到多少篇纯电子版文章,而不是利用纸版进行扫描.因为只有用纯电子版,才有可能提供真正的全文检索,如果不能对正文字段进行检索,那检索只能称之为假全文检索,因为没有比正文字段更能反映文章内容的了.如果没有电子版的数据,增值服务也就无从谈起.
这些增值服务除了提供更好的检索服务外(如中英文摘 要语料对齐后的双语检索),还包括(但不仅限于)以下的应用:
提供文献计量自动分析的查询,如清华同方已推出的“中国学术期刊文献评价统计分析系统”.
提供学术调研报告的自动生成,在文献计量自动分析的基础上,对国内外某领域进展情况进行评述.学术调研评价可以指导论文的选题和前期调研,特别有利于论文选题、项目评审等工作.
可以从句子级提供文献自动审稿辅助功能以及参考文献自动标注功能.
提供更小粒度的检索,支持句子检索、真正的图片检索(首先是流程图、系统结构图、数据表等的检索,以后会支持图像检索,从颜色、纹理、形状等各个要素进行分析),大量使用信息抽取技术,提供列表式搜索.
支持学术问答,支持观点型搜索、流派型搜索,能够提供学者谱系图,利用学位论文的致谢提供导师自动评价系统.
提供知识点与知识点之间的链接,实现真正的知识服务.正如由过去买本整刊进行阅读到现在的只看某篇文章,将来可能实现只看某篇文章的某一部分.
5.增值服务是核心竞争力的核心
文献计量自动分析系统,可以统计分析任意一个学科、专业或方向的核心作者,主要研究机构,地域分布,关 键 词、标题、文摘及分类号的关系,提供研究热点及趋势等统计分析,以TopN、统计图表等形式提供给用户,并用文献计量的定律来进行验证.而现在的计量分析方面文章大都是由人来写的,而且主要分布在图书情报领域.其实自然科学领域也非常需要他们本学科的文献计量统计分析,如果能有这样的一个自动统计分析系统,会为科研人员节省很多时间和精力,为研究工作提供很大方便(关于计量分析的技术实现请参阅文献[5―6]).
当前,信息爆炸与信息泛滥的问题日益突出,解决的根本方法是使大量创新性很低的文章没有发表的可能.为此,编辑部会使用“学术抄袭与科学引用自动判定系统”辅助审稿,从而在源头上利用技术手段解决学术抄袭的腐败问题,而这种系统可以由全文数据库商联合提供.这类句子级分析匹配系统既可以对学术抄袭与科学引用进行自动判定,同时也可以帮助作者进行参考文献的自动标注.句子匹配分析系统的难点主要表现在:异构数据的获取;历史数据的回溯建库;跨语言之间的判定.
现在的数据库商以篇为单位提供数据,未来的数据库商不仅能提供句子级的搜索与分析,还能提供以知识点为单位的搜索与分析.将来的系统还将会提供学习型搜索和观点型搜索:①学习型搜索相当于文献自动综述,对于现在的检索而言,如果用户不打开检索结果进行全文阅读就很难判断哪些文章是需要的,哪些文章是不需要的,而看过的文章又有许多重复的内容.如果能够让计算机进行滤重与知识重组来完成这一工作,那将是一件非常有意义的事情.未来的搜索将可以实现知识的重组,把上千篇文献组织成一篇,相当于以百科全书的形式进行组织,用户只需要看“书”中感兴趣的部分就可以了.②观点型搜索是指根据某观点进行搜索,以自然语言形式输入查询,搜索含有某个观点的文章,或者关于某个知识点的所有观点.未来的检索结果将不再是一篇一篇的文章,而是一个列表.列表列出每种观点以及每一种观点的支持人数.当我们想详细了解某一种观点时,就点击相应记录,系统会显示关于这种观点有哪些论述方式,是如何来论述的,也就是真正的知识链.这是解决信息泛滥与知识贫乏的关键途径.
6.结论
清华同方率先实现了真正的全文搜索,并推出了参考文献与引用文献相关的文献链接,今年又推出了一系列的学术服务,这也是CNKI的价格较高同时市场占有率也很高的原因之一.因此,数字化程度与数据深加工程度将是数据商的核心竞争力的反映.同行数据库商之间的竞争除数据质量外还有:在范围上体现为对历史数据的回溯程度――对历史数据回溯得越多,数据就越有竞争力;在深度上将反映在对数据的深加工程度上,对数据加工的越深越细,将会越有竞争力.
未来针对全文数据库的应用系统可能会很多,新功能的名字也可能有很多不同,但整体上会朝着以下几个方向发展:分析粒度越来越小(句子分析是重点和核心),分析数量越来越大(大规模异构数据综合分析),分析范围越来越广(正文内容分析成为重点),分析程度越来越深(不再以词为重点,会支持结构检索、语用检索等).
自动问答、信息抽取、列表式搜索、观点型搜索等都是一些新的趋势,但是搜索技术要取得突破性进展,知识获取无疑是关键.三大全文数据库商拥有如此丰富而权威的资源,在这些文献中蕴含着大量的专家知识,如果能把这些知识都抽取出来,就可以进行学术的自动问答了.未来的IT用户所强调的不是拥有技术,而是拥有可以用的知识.发挥计算机的速度优势主要依靠算法,发挥计算机的存储优势主要依靠知识库.建好人用知识库可以解决很多问题,如果这样的知识库(如CYC)同时还能为计算机所用,那么许多问题便会迎刃而解.拥有这样的知识库必将引领未来的IT,õ
数据库方面有关论文范文素材,与检索技术的实现方式看三大全文数据库的相关论文摘要参考文献资料: