出版物方面有关论文范文集,与搜索引擎技术在网站图书检索中的应用相关论文格式
本论文是一篇出版物方面有关论文格式,关于搜索引擎技术在网站图书检索中的应用相关研究生毕业论文开题报告范文。免费优秀的关于出版物及信息技术及数据结构方面论文范文资料,适合出版物论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
通过不断优化,一定可以摸索出最具本社产品特色的算法模型.下面介绍一下我社建立相关性评价算法模型的思路与经验:该模型采用计分方式,依得分多少分段排序.得分的计算是依据所匹配词的词频和权重,分级的依据是匹配度,是根据经验修正后建立起来的统计模型.
首先,根据出版社网站的产品数据结构和功能架构,采集尽可能多的可用于描述图书内容的信息,如章节目录、内容简介、样章、CIP数据中的主题词和分类号、作译者名、自定义分类名等,并将它们分为定量词和定性词两类,分别赋予不同的权重,而具体的权重值需根据经验不断修正,一个基本原则是定性词的权重分略高于定量词最高词频的平均值.
然后,计算出所匹配词的权重与词频的乘积之和,同时记录下匹配度――匹配词数与输入分词总数之比,再依据这两项数据进行综合评价,得到相关性分级结果列表,即匹配度为100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面.
这一模型从我社自身内容特点出发,经反复修正和优化,已经达到如下三点设计目标:
保证相关度高的图书全部出现在列表的第1-2页;
在线使用时,每次检索耗时0.5-2秒,平均耗时1秒;
相关度排序基本与客观实际一致.
搜索引擎技术的应用开发,至能够成功上线运行的程度,还只是完成了基本任务.其后续的优化和运行维护工作还有许多,这项长期性工作主要包括两个方面:
新书入库和新词识别.不断地推出新书,是出版社网站的任务使命.除了在相关频道进行宣传推荐以外,能够及时出现在搜索引擎的结果列表中,也是很有推荐意义的.这就需要我们的预处理工作必须与新书上线同步进行,如果网站每天都有新书发布,那么,预处理工作就需要每天进行.由于预处理的运算量非常之大,所以一般应安排在夜间自动运行.以我社在库品种为例,预处理得到的索引记录已达350多万条.同时,新书中涌现的新词也十分重要,只有及时地将这些新词识别出来,才能保证以后此类新书的内容可以被正确切分.
算法和权重值的不断优化.随着社会和科技进步以及出版社的发展,出版领域将不断扩展.而每当出版物涉及一个新的范畴以后,必然带来内容结构和特点的变化.因此之前确定的算法、参数、权重值等都需要同步进行适应性调整.另外,随着信息技术和人工智能的发展,算法和建模理论正在迅速完善和提高过程中,这将给我们提供许多指导和借鉴,优化工作就有了方向.所以,运维工作的另一方面内容就是应当根据产品结构的变化及技术的发展,适时地对搜索引擎的效果和效率做出评价,以选择时机进行优化升级,使其不断完善和提高.
出版社网站的图书搜索引擎技术开发,是我社在数字出版理念指导下,进行的一次改善读者产品搜索体验的实践,从中积累了经验,达到了预期目的.但同时也感到,还有许多可以继续努力提高的空间,随着信息技术的进步以及各方面条件的完善,我们有信心取得新的飞跃.
本篇论文来源:http://www.sxsky.net/jingji/0135218.html
(作者单位系科学出版社)
出版物方面有关论文范文集,与搜索引擎技术在网站图书检索中的应用相关论文格式参考文献资料: