本论文是一篇词汇方面论文摘要怎么写,关于信息处理用彝汉双语词汇对齐技术相关学士学位论文范文。免费优秀的关于词汇及信息检索及语言方面论文范文资料,适合词汇论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索.
关 键 词:彝汉双语;对齐算法;BiDictAlign;测试分析
中图分类号:TP391.2文献标识码:A文章编号:1007-9599(2012)11-0000-02
一、引言
双语语料对齐分为段落、句子、短语和词语几个不同的层次.但在词汇输入、信息检索、机器翻译、电子词典、语义分析等语言信息处理领域,段落、句子、短语级别的对齐是不能满足需要的,例如:机器翻译是把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成目标语言,这就要求必须实现源语言和目标语言词与词的对齐才能找出两者之间的对应翻译关系,相对于段落、句子、短语级别的对齐,词与词之间的对齐因为实现的技术较复杂,对齐的难度更大一些.而且彝语、汉语两个语言的差异比较大,客观上造成了彝汉双语词汇对齐的难度比其他语言之间词汇对齐的困难更大.
二、信息处理用彝汉双语词汇对齐的难点分析
词汇对齐是指在源语言和目标语言的对应翻译中找到词与词之间匹配关系的过程,如下文所举例出的彝汉双语词汇对齐的句子所示,在每个词的右下角都用数字表示了该词在句子排列中的顺序.
有关论文范文主题研究: | 关于词汇的论文例文 | 大学生适用: | 函授毕业论文、专科毕业论文 |
---|---|---|---|
相关参考文献下载数量: | 47 | 写作解决问题: | 如何写 |
毕业论文开题报告: | 论文模板、论文摘要 | 职称论文适用: | 刊物发表、初级职称 |
所属大学生专业类别: | 如何写 | 论文题目推荐度: | 免费选题 |
彝文:
汉文:我1前天2去3北京了4.
-我1;-前天2;-去3;北京4-
通过这个实例,我们可以用形式化的理论来进行分析:假设彝汉双语词汇对齐的每个对应词汇只包含相邻的词或不存在,那么彝汉双语词汇对齐的每个部分就可以用
词汇的对齐主要找出源语言和目标语言的对应翻译的词与词之间匹配关系,因此词汇对齐提高的语言信息度更精确,为语言信息处理研究在词典编纂、机器翻译、词义排歧、信息检索等领域研究与开发提供了重要的语言学材料支撑.然而由于彝语、汉语两个语言的差异比较大,造成了彝汉双语词汇对齐技术的实现难度比较大,主要有以下几个方面的原因:
1.不同语言都有自身的语言表达习惯与方式,假设性的词汇排序不可能都能满足所有的情况.在段落、句子级别的对齐中,因为在对照、翻译、对齐的过程中段落、句子的次序调整都是少见的,因此常规性的假设对齐条件能满足大多数情况的语言应用实际.但是在词汇对齐中词序的错位是常见的.词序的错位将直接扩大对齐的搜索空间和范围,匹配的结果不相符的可能性将大大增加.
2.词汇的匹配模式比较复杂多样化.在词汇对齐中,除了词与词之间需的对照翻译外,还有一些在对照翻译过程中不需要翻译、省略,但需要对齐的现象也很常见;此外,有些词直接翻译成从句子,例如:飞檐走壁-;词也翻译成相邻或不相邻的短语;一些更复杂的情况,如:在彝语中