本论文是一篇词缀类论文格式范文,关于词缀对英文拼写检查工具建议生成排序的影响相关专科毕业论文范文。免费优秀的关于词缀及生英语及参考文献方面论文范文资料,适合词缀论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:词缀是英文词汇构词的重要组成,现实中拼写错误发生在词缀本身的几率也较小.在拼写检查纠错工具中,将词缀提取出来单独处理可以对建议生成和排序产生积极的影响.该文选取了9个常见的英文词缀和61个医学领域的词缀,分别针对公共领域文本和医学领域文本进行实验,实现了准确率1.3%和1%的提升.
关 键 词:词缀;拼写检查;召回率;准确率
中图分类号:TP18文献标识码:A文章编号:1009-3044(2012)17-4133-03
TheEffectofAffixesontheSuggestionGenarationandRankingModulesofEnglishSpellChecker
ZHENGHai-feng,ZHANGMing-duo
(ZhanjiangNormalUniversity,Guangdong,Zhanjiang524000,China)
Abstract:AffixesisanimportantponentofEnglishwords,andspellingmistakesoccuredinaffixesisalsorareinpractice.Properlyutiliseaffixesinthesuggestiongenerationandrankingmodulewillleadtobetterresults.Inexperiments,9monaffixesand61medicalmorphologieswereselectedforpublicdomainandmedicaldomainmisspellings,accordingly,1.3%and1%higherprecisionwereachieved.Keywords:affix,spellchecking,recall,precision
词缀(affix)是英文词汇构成的重要组成部分,一般用以和词干(wordstem)组合形成新的单词.词缀又可以分为前缀(prefix)和后缀(suffix),它们可以是通过衍生(derivational)而来的,如,“-ness”表示状态和性质,“pre-”表示在等之前,先于等;也可以是通过变形(inflectional)而来的,如,英语中的复数形态“-s/-es”,或时态形态“-ed”等.另外,在一些专业领域的词汇中,词缀也往往具有重要的作用和意义,如,表示恐龙(蜥蜴)的词缀“-saurus”,“Brontosaurus”雷龙;医学领域用来表示红色的词缀“erythr-”,“erythromycin”红霉素,等等.
拼写检查与纠错工具能够自动侦测出目标文本中的错误拼写或错误使用单词,并给出合理拼写建议.其典型结构主要由错误检查,建议生成和建议排序模块组成[1].一般来说,错误拼写的类型可以概括为拼写错误和正字错误两种,而这两种类型的拼写错误都可以和词缀相关[2].该文将通过实际的实验结果,寻找英文词缀对单词拼写检查与纠错中建议生成和排序模块的影响.
1实验设计
1.1实验构想
由于英文词缀的长度一般较短,数量集合不大,且在不同词汇中重复率高,我们可以假设拼写错误发生在词缀上的几率很小.
在拼写建议生成模块中,编辑距离(editdistance)一直都是最基础也最广泛使用的算法.其中的距离指的是将字符串A转换成字符串B所需要的操作次数.字符数越多的字符串转化后的字符串集越大,“距离”操作也越多[3].在生成建议之前,可以将目标字符串中可识别的词缀先提取出来,针对剩下的字符串进行操作,最后再将操作后的字符串集和词缀组合起来.这样可以大大的提高算法操作的效率,缩小建议集合.
另外,在拼写建议排序模块中,我们认为具有相同词缀的拼写建议是正确建议的可能性很大.例如,以副词或形容词形式“-ly”结尾的错误拼写单词,正确形态为相同词性“-ly”的可能性非常高.1.2实验方法
为了测试实验构想,我们选取了9个常见的英文词缀和61个医学领域的词缀(见表1和表2),加入到构建好的拼写检查与纠错工具中,分别对公共领域文本和医学领域文本进行实验.公共领域文本由513个湛江师范学院大学生英语作文中出现的错误拼写单词组成;医学领域文本则由5230个澳大利亚悉尼Concord医院的临床记录中的错误拼写单词组成.
表1常见词缀
表2医学领域词缀
实验主要有3个参数:
实验分成几个阶段:
2实验结果和讨论
通过五个阶段的实验,针对公共领域文本的实验结果如表3所示.实验从Baseline的80.1%(P)/86.2%(R)开始,逐步添加词缀提取机(AE)和词缀排序(AR)到建议生成和建议排序模块中.
表3公共领域文本实验结果
由结果可以看出,在实验的第二个阶段加入AE后,召回率有所下降,准确率也有些微下降.这是因为AE的加入,减少了算法生成字符串的数量,缩小了建议集合,不可避免的影响了召回率,但也因此提高了算法的效率(由平均建议数可以看出).在加入AR排序之后,准确率有了回升,在召回率略低于Baseline的前提下,准确率反而有所提高,达到了80.2%.在这个基础上,我们放弃使用词缀提取机(AE),使得召回率和平均建议数恢复到Baseline的水平,准确率有了明显的提升,达到80.4%.最后,我们担心过多词缀的采用会影响排序的效果,从而只选取了两个最常见的词缀“-ly”和“-ed”,准确率进一步提升到了81.4%.
同样的,对于医疗领域文本的实验结果(表4),变化的趋势和公共领域类似,但是AE对召回率的影响幅度明显大于公共领域(84.7%到84.2%).这是由于医疗领域词缀一般较长,在实际使用中,较难匹配,拼写出错的几率也较高.
表4医学领域文本实验结果
另外在实验结果中,还有一个隐藏的数据值得注意:召回率和准确率之间的差异.准确率提升的目标是尽可能的接近同组实验的召回率,可