数据库方面论文范文集,与医药文献中文分词相关论文答辩
本论文是一篇数据库方面论文答辩,关于医药文献中文分词相关电大毕业论文范文。免费优秀的关于数据库及分词及字符串方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
长度为2的字符串为空,转去第5步;若长度为2的字符串不为空,转去第4步;
第4步重新遍历原文章,取下一个字符,转去第3步;
第5步重新遍历原文章,以最大正向匹配的方法根据数据库统计后的词与词典相结合的词库进行匹配,匹配时优先原本词典里的词库.
2测试结果
该文使用C语言,在VC6.0平台上,实现了上述五种算法,并在搜集的小型医药文献数据集上做了实验,实验结果如下:1)测试文档一的实验结果如图1所示,实验结果显示:
在处理同一篇文章的条件下,双向切分算法所需要的平均时间最少.
在处理同一篇文章的条件下,最大正向匹配算法和双向切分算法的正确率最高.
在此测试中,初步认为双向切分算法是最适合医药文献分词.
图1测试文档一实验结果
2)测试文档二的实验结果如图2所示,实验结果显示:
在处理同一篇文章的条件下,最大正向匹配法所需要的平均时间最少;
在处理同一篇文章的条件下,最大正向匹配算法的正确率最高;
在此测试中,初步认为最大正向匹配算法是最适合医药文献分词;
3)测试文档三的实验结果如图3所示,实验结果显示:
①在处理同一篇文章的条件下,双向切分算法所需要的平均时间最少;
②在处理同一篇文章的条件下,最大正向匹配算法的正确率最高;
③在此测试中,最大正向匹配算法跟双向切分算法都是比较适合医药文献的中文分词;
图2测试文档二实验结果
图3测试文档三实验结果
4)实验结果汇总如图4所示,实验结果分析如图5所示.从实验结果中可以看出:基于匹配与统计结合分词的时间最长;基于统计算法分词的正确率最低;在基于字符串匹配中,虽然最大正向匹配所用的时间略长于最大逆向匹配算法跟双向切分算法,但是它的正确率最高,实验结果显示,最大正向匹配算法最适合医药文献的分词.
图4实验结果汇总
图5实验结果分析
3结论
通过算法的设计、实现、测试与比较,分析数据,得出结论:最适合医药文献中文分词算法是最大正向匹配算法.
参考文献:
[1]揭春雨,刘源.论汉语自动分词方法[J].中文信息学报,1989(1):1-9.
[2]骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36.
[3]孙茂松等.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339.
[4]刘挺,吴岩.串频统计和词匹配相结合的汉语自动分词系统[J].中文信息学报,1998(1):17-25.
[5]WUA,JIANGZX.WordSegmentationinSentenceAnalysis[C].Proceedingsofthe1998InternationalConferenceonChineseInformationProcessing,BeijingChina,1998:169-180.
数据库方面论文范文集,与医药文献中文分词相关论文答辩参考文献资料: