本论文为语言学方面有关论文英语翻译,关于机器翻译渐行渐近相关在职毕业论文开题报告,可用于语言学论文写作研究的大学硕士与本科毕业论文开题报告范文和优秀学术职称论文参考文献资料下载。免费教你怎么写语言学及机器翻译及句法方面论文范文。
编者按: 近几年来,在谷歌、雅虎等从事搜索引擎服务的公司的大力推动下,机器翻译技术从学术研究领域逐渐走到前台.在谷歌、雅虎提供的翻译网页上,我们甚至可以输入一段中文或者英文让谷歌和雅虎的服务器将它翻译成英文或者中文,亲身体验机器翻译的成果.那么,机器翻译技术研究到底目前进展到什么程度了?何时能够进入实用阶段?本期我们特别邀请到中国科学院专门从事机器翻译研究的专家撰文,就机器翻译技术,尤其是其中取得研究成果最为丰富的统计机器翻译技术进行介绍.
统计机器翻译,又称为数据驱动(data-driven)的机器翻译.统计机器翻译方法萌芽于上个世纪50年代,早期的机器翻译系统通常建立在对词类和词序分析的基础之上,分析中经常使用统计方法,后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用.直到上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,统计机器翻译才引起了研究者广泛关注和争议.然而由于当时的计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑.
进入21世纪,越来越多的研究人员开始投入到统计机器翻译的研究中,统计方法也逐渐成为国际上机器翻译研究的主流方法之一.在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测中,从2002年到2005年,统计机器翻译连续四年取得好成绩.
目前,统计机器翻译方法主要分为三类: 第一类是基于词(word-based)的方法,以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识, 第二类是基于短语(phrase-based)的方法,它将翻译的粒度(指基本语素单位,编者注)从单词扩展到短语,能够较好地解决局部上下文依赖问题,提高了翻译的流利度和准确率, 第三类是基于句法(syntax-based)的方法,将句法结构信息引入翻译过程,这种方法是当前研究的一个热点.
基于词的方法
基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位.训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率.翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子.这种方法的典型代表就是上世纪90年代初期IBM公司的Brown等人提出的基于信源信道模型的方法,可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础.
语言学本科毕业论文这么写
播放:24065次 评论:3607人
信源信道模型将统计机器翻译看成一个信息传输的过程: 信道的输入是目标语言,在经过信道编码以后,输出源语言,机器翻译的任务就是将源语言还原(翻译)为目标语言,这一过程通常称之为解码.需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言(参见图1).
根据Bayes公式,Brown等人提出了统计机器翻译的基本方程式:
其中,Pr(e)是目标语言的语言模型,衡量生成的目标语言的合法程度, Pr(f e)是翻译模型,衡量目标语言文本翻译为源语言文本的概率.解码的任务就是根据上式找到概率最大的译文.
在此基础上,IBM公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码.IBM引入的统计方法是通用的,功能也比较强大,在法英翻译上达到了当时基于句法转换的系统的水平.
IBM的工作一直延续到1995年,之后由于研究经费的原因而被迫终止.后续的研究者在1999年重新实现了IBM模型,并公开了源代码GIZA.之后朗茨•,约瑟夫•,欧赫(Franze Joseph Och)博士在此基础上发布了增强版GIZA++,这些工作为后来统计机器翻译的发展奠定了坚实的基础.
从本质上说,IBM的方法是纯粹的单词到单词自动转录方法,除了计算复杂之外,另外一个很大的缺陷在于它只能学习两种语言单词之间互为翻译的知识,而对单词的上下文语境不敏感,这就导致了IBM方法在词级别上由于缺乏上下文语境而不能正确选择译文单词,尤其是不能正确翻译习惯表达、成语等.
基于短语的方法
基于短语的方法其基本思想是以短语作为翻译的基本单位.在翻译过程中,不是孤立地翻译每个词,而是将连续的多个词一起翻译.由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配.一般的,在基于短语的方法中,短语可以是任意连续的字符串,没有语法上的限制,这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译为指定的一个源语言句子,基于短语的模型翻译过程如下(参见图2):
● 对源语言句子进行短语划分,
● 根据翻译模型翻译每个短语,
● 对目标短语进行语序调整.
基于短语的方法需要对系统进行训练.训练的时候,先输入一个双语语料库,即一对一对互为翻译的句子.从词语对齐的结果中知道句子中哪些词是互为翻译的.接下来还需要进行短语抽取,也就是抽取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义.
基于短语的方法其解码算法比较简单,许多经典的搜索算法都能用于解码,例如A*算法、动态规划算法等.相较而言,如何重新排列目标语言短语的顺序(即语序调整),使译文更加准确、流畅,是一个很重要的问题.最简单的方法是不进行短语的语序调整,即译文和原文的短语排列顺序一致,这实际上是完全忽略语言之间的差异性.如果要考虑任意可能的语序调整(即目标短语的全排列),将是一个“NP-难”问题.所以实际的做法是引入某种约束条件,减少语序调整的可能性,从而缩小解码时的搜索空间.最常见的两种语序调整约束是IBM约束和ITG约束.在这两种约束的基础上,研究者提出了不同的语序调整模型.
基于句法的模型
基于句法的统计机器翻译最早可以追溯到上世纪90年代初,当时同步树粘接语法(Synchronous Tree-adjoining Grammar,简称STAG)和反向转录语法(Inversion Transduction Grammar,简称ITG)相继提出来并被应用到机器翻译上.从时间上说,与IBM提出基于单词的统计翻译模型的时间很接近,但是基于句法的统计机器翻译研究逐渐得到人们的关注和认可却是在2000年之后.即使是在这段时间,许多研究者对基于句法的统计机器翻译仍然持观望态度,这主要是因为最初的基于句法的统计机器翻译系统在性能上与基于短语的统计机器翻译系统相差甚远,再加上2003年由欧赫等人组织的约翰.霍普金斯大学(JHU)夏季研讨班经过6个星期的努力之后,发现引进诸多与句法结构相关的特征并不能显著改善翻译质量.这些使得人们对基于句法的统计机器翻译产生了怀疑.
然而,基于短语的统计机器翻译本身存在一些固有缺陷,如短语层次上的全局语序调整、短语非连续性和泛化能力问题等,极大地束缚了该方法的进一步发展.这使得人们又不得不求助于句法,综观统计机器翻译的发展历程,可以看到,基于句法的统计机器翻译是继基于短语的统计机器翻译之后的一个新趋势.从目前的情况来看,有些基于句法的统计机器翻译系统在性能上已经明显超过了基于短语的系统.
将句法知识引入到统计机器翻译系统中存在多种不同的方法,如在单词对齐模型中引入句法知识,在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法知识重新排序等,这里只讨论翻译模型本质上就是基于句法的,并称之为基于句法的统计机器翻译.本文延续Chiang的分类思想,根据翻译模型所依赖的语法是否包含语言学知识将基于句法的统计机器翻译粗略分为以下两类:
该文转载于 http://www.sxsky.net/fanyi/374033.html
1. 基于形式化语法.该类翻译模型建立在形式化语法的基础上,但并不包含人类语言学知识,如短语标记、词与词之间的依赖关系等.
2. 基于语言学语法.该类模型建立在语言学语法基础上,将人类语言学知识包含到模型中.根据所采用的结构树形式的不同,又可以将它分为以下两类:
● 基于短语结构树: 该类模型通过短语结构树,将短语的句法标记及标记之间的依赖关系