本论文是一篇关于索引方面论文参考文献,关于硬盘搜索系统设计与实现相关毕业论文范文。免费优秀的关于索引及计算机及文件方面论文范文资料,适合索引论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要 :随着硬盘容量越来越大,在海量文件中搜索所需文件成为一个难题, 桌面搜索应运而生.讨论了硬盘搜索系统功能模块的设计及实现过程,实践表明:系统基本满足了用户的需求,达到了预期的设计目标,方便了用户搜索和管理本地硬盘.
关 键 词 :硬盘搜索系统 ;索引;模块设计
中图分类号:TP319文献标识码:A文章编号文章编号:1672-7800(2013)012-0084-03
作者简介:刘山根(1976-),男,广东省华侨职业技术学校教务科副科长、讲师,研究方向为软件工程.
0引言
随着计算机技术的发展,本地和互联网上的信息量越来越大,想要获取有用的信息相当困难.传统的人工筛选方式容易出错且效率很低,因而在庞大的数据中进行人工筛选越来越不现实.随着个人计算机硬盘的不断扩充,本地计算机硬盘上的信息量也相当巨大,如果按照过去人工的方式去搜索信息显然费时费力效率低下,因而需要借助桌面搜索软件来辅助人们的工作.显然,使用搜索系统可以快速找到需要的信息,从而节省劳力并且提高工作效率.作为现代信息获取技术的主要应用,“搜索引擎”对于计算机相关人员来说是非常必要的.虽然google和百度等搜索巨头已经开发出了几款非常优秀的桌面搜索工具,但是他们所开发的搜索工具往往是功能强大但使用起来并不方便,同时占用着比较大的系统资源.因此设计出操作简单易用、占用系统资源小的硬盘搜索系统是相当有必要的,它能为用户提供一个快速、准确检索信息的解决方案.
1系统功能设计
根据需求分析,搜索系统模块可分为两个主模块:索引模块和搜索模块.索引模块包含系统设置、建立索引和帮助3个子模块;搜索模块包含搜索关键字和自动生成目录2个子模块.系统的功能模块如图1所示.
1.1索引模块设计
主要包括正常索引、暂停索引和重新索引功能.
正常索引的主要功能:按照系统的默认设置来建立索引.如果索引已经建立完成则是暂停状态,但当文件系统发生变化时,会对发生变化的文件进行索引或删除索引文档.如果当前正处于暂停索引状态,则取消暂停索引状态,转为继续索引.
暂停索引的主要功能:暂停当前正在进行的索引操作,如果索引已经建立完成,则无论文件系统是否发生变化,都不对其进行索引或删除索引文档.
重新索引的主要功能:删除索引目录,按索引设置对文件系统进行重新索引.
创建索引流程:首先,获取系统时间,将其作为建立索引开始时间,对文件逐一进行分析,读取ini文件获取索引文件的标志,如果为ture,则将其标志字串设置为该类型文件的后缀名,否则标志字串为空;然后,通过文件的后缀名判断是否建立索引,同样通过文件的后缀名决定是否进行文本转化,如果是纯文本文件,则直接构造文档,将文件位置字段、文件名字段、文件后缀名字段和内容字段加入到文档中,如果是Word或Excel,就提取其中的文本转换为txt临时文件,将实际文件位置字段和临时文件内容字段加入到文档然后删除临时文件,如果是不容易转换为文本文件的文件,则仅将其位置字段、文件名字段、文件后缀名字段加入到文档中;最后,再次获取系统时间作为建立索引结束时间.
这篇论文出处:http://www.sxsky.net/cankao/435744.html
1.2搜索模块设计
主要功能包括普通搜索和高级搜索两个功能.
普通搜索功能:按照索引关键字对索引文件的默认搜索字段进行搜索并显示搜索结果.
高级搜索功能:在普通搜索的基础上增加搜索的条件限制,如可选择搜索文件名或是文件内容等,筛选出最符合用户需要的搜索结果.
搜索关键字流程:首先,用户输入关键字;然后,获取系统时间作为搜索开始时间,从索引文件内容和标题字段搜索关键字,获得结果形成一个数据集.接着,再次获取系统时间作为搜索结束时间,使用循环将数据集读出,然后将读出的结果经过处理后显示给用户,对于能直接打开的文件可直接打开,对于不可直接打开的文件可选择打开文件所在的文件夹;最后,显示搜索用时和搜索到的结果数.
当搜索系统的索引文件建立好后,系统的搜索模块就可以利用已经建立好的索引对关键字进行查询,查询关键字的过程如图2所示.整个查询和返回结果都是通过搜索引擎接口实现的,用户给出要查询的关键字,通过搜索引擎接口构造查询表达式,然后再通过查询解析器对查询表达式进行解析处理,最后把查询到的结果放入到队列中,如果队列中有合适的记录,则通过搜索引擎接口返回给用户.
2系统实现
2.1建立索引
建立索引的第一步是提取文本,首先要知道对哪些文件进行索引,即要知道索引的目录路径.本系统将所要索引的目录路径保存在名为config.xml的文件中,故在建立索引前应该先读取该文件,获得要建立索引的文件目录范围.
成功读取文件后,对文件类型进行判断,判断该文件是否可以直接对其内容进行索引,因为对于某些文件来说,可以直接提取文本,而对于某些非文本文件(如Word、Excel等文件)来说,若要对其内容进行索引,则需要先将文件转换为txt临时文件,然后再对转换后的txt文件进行索引,索引完成后应该立即删除txt临时文件.
构建文档:对于所有文件来说,有些文件可以对其文件内容进行索引而有些文件无法对其文件内容进行索引.只要是文本文件或可转换为文本文件的文件,都可对其内容进行索引;而对于无法转换为文本文件的文件,则不对其文件内容索引,而只是对文件名、路径和大小建立索引.建立索引的主要代码如下:
///
/// 对文件建索引
///
/// 文件
/// /// 是否对其内容索引,是'true',否'false'
public static void IndexFile(FileInfo file, IndexWriter writer, bool isText)
有关论文范文主题研究: | 关于索引的论文范文素材 | 大学生适用: | 电大论文、本科论文 |
---|---|---|---|
相关参考文献下载数量: | 37 | 写作解决问题: | 毕业论文怎么写 |
毕业论文开题报告: | 标准论文格式、论文选题 | 职称论文适用: | 期刊发表、职称评初级 |
所属大学生专业类别: | 毕业论文怎么写 | 论文题目推荐度: | 最新题目 |
{
try
{
Document doc 等于 Lucene.Net.Demo.FileDocument.Document(file);
doc.Add(new Field(file.Extension, file.Name, Field.Store.YES, Field.Index.UN_TOKENIZED));
//这里一定要设置响应的编码格式,否则建立索引的时候不能正确读取内容并分词
if (isText)
{
doc.Add(new Field("content", new StreamReader(file.FullName, Encoding.Default)));
}
writer.AddDocume