本论文是一篇关于数据库类论文答辩开场白,关于全文搜索引擎检索帮助的改进建议相关毕业论文模板范文。免费优秀的关于数据库及信息检索及搜索引擎方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
关 键 词:全文搜索引擎;检索帮助;改进;建议
摘 要:针对目前全文搜索引擎的检索效率低,引擎提供的检索帮助不够完善的实际情况,结合并借鉴诸多检索网站的优点,提出了将检索帮助置于显见位置、普及和改进高级检索、在全文检索中引入分类体系、对搜索引擎的信息来源网站进行主题分类、增加同义词的检索帮助以及引导用户参与设计检索帮助等方面的改进建议.
中图分类号:G252.7文献标识码:A文章编号:1003-1588(2012)03-0031-03
收稿日期:2012-05-06
作者简介:冷玥(1990-),北京大学信息管理系学生.研究方向:信息管理与信息系统.随着以百度、Google为代表的全文搜索引擎在人们生活中扮演愈加重要的角色,人们也提出了在使用全文搜索引擎进行检索过程中遇到的一些实际问题.其中,检索效率低,需要全文搜索引擎提供更加有效的检索帮助是一个突出的问题.
1全文搜索引擎的工作原理
全文搜索引擎是真正意义上的搜索引擎,全文搜索引擎的数据库是通过一个叫“网络机器人(英文为Spider)”的软件,将网络上的各种链接自动获取大量的网页信息,并按一定的规则分析整理而形成的.全文搜索引擎的“网络机器人”是一种网络上的软件,遍布Web空间,能够扫描到一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站再到另一个网站去收集网页资料.全文搜索引擎的“网络机器人”为保证收集到的信息资源最新、最全,还会再回访已抓取过的网页.“网络机器人”收集的网页,还要由其他程序进行分析,根据一定的相关度算法进行大量的计算建立起网页索引,这样才能添加到索引数据库中.平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当用户输入关 键 词进行搜索时,搜索引擎会从庞大的数据库中找到符合该关 键 词的所有相关网页的索引,并按一定的排列规则返给用户.
综上所述,全文搜索引擎的原理主要分为三个部分:首先是从Inter上抓取网页.利用“网络机器人”系统程序从Inter上自动收集网页,自动访问Inter,并沿着任何网页中所有的统一资源定位符爬到其他网页,再经过多次过程重复,并把爬过的全部网页收集起来;其次是建立索引数据库.利用分析索引系统程序对收集起来的网页内容进行分析,并提取有关的网页信息,通过复杂大量的计算,算出每一个网页针对页面内容中及超链中每一个关 键 词的相关度,再由这些相关的信息建立起网页索引数据库;最后是在索引数据库中搜索排序.当用户输入关 键 词搜索后,利用搜索系统程序从网页索引数据库中找出符合所输入关 键 词的全部相关网页.因为全部的相关网页对所输入关 键 词的相关度已经计算出来,并对结果进行了优化,然后再由页面生成系统将搜索结果的链接地址和页面内容、摘 要等有关内容呈现给用户\[1-3\].
2全文搜索引擎检索帮助存在的薄弱环节
目前,全文搜索引擎得到了快速发展和广泛应用,其功能也越来越强大,但仍然存在着检索效率不高的问题,虽然一些搜索引擎和一些具有检索功能的网站设置了检索帮助,但通过分析研究发现,全文搜索引擎检索帮助也有很多薄弱环节,主要体现在受控较弱,很难从一个完整的分类体系的角度为用户提供有价值的检索帮助,也可以理解为很难将用户的检索范畴限制在想要检索的信息存在的范围内,用户需要在返回的海量信息中寻找自己真正需要的信息.整个网络就是一个超级大型的信息资源数据库,而且无法用一个完整的分类体系对信息资源进行分类、分区,用户依然需要经过对信息资源内容进行筛选,如果用户面临的信息资源来自较大的范围,就不得不花大量的时间在浩如烟海的大型信息资源数据库中进行信息的筛选.因此可以将思路锁定于寻找一种可以缩小检索范围的检索帮助之中,从对全文搜索引擎检索帮助的分析研究中发现,对其检索帮助进行改进和完善是必要的和可行的\[4,5\].
3全文搜索引擎检索帮助的改进建议
经分析研究,针对全文搜索引擎检索帮助存在的薄弱环节,结合并借鉴诸多检索网站的优点,建议从以下几个方面对全文搜索引擎检索帮助进行改进.
3.1将检索帮助区域置于易见位置
在分析研究过程中发现,几家常用的全文搜索引擎的帮助选项都位于页面的下方而且没有用显眼的标志进行标记,用户一旦遇到了问题,很难发现可以求助于搜索引擎本身,而帮助中的内容,比如说选择检索词的原则,模糊检索的可能性等等,他是和用户的检索工作息息相关、不可分割的.因此改进检索帮助应该包括让用户可以很容易地获得需要的帮助.目前,很多用户在使用的过程中都不知道搜索引擎存在专门的检索帮助链接,只能凭借经验进行搜索,这是一个不应该出现的现象,也应该是检索帮助的改进方向.
3.2普及和改进高级搜索
对于全文检索来说,合理的限制越多,返回的信息量越少,需要进行筛选的时间花费的越少,检索效率提高的也就越多.但同时发现,用户很难全面地想出足够多的限制词来修饰自己想要检索的信息资源,高级检索的存在则是从信息资源的形式角度提出限制的可行方法.举个例子来说,如果有用户想检索军事坦克的内容,若是单纯输入坦克,返回的内容可能还包括玩具坦克的介绍,那么利用高级搜索,他就可以选择过滤掉玩具坦克有关