本论文是一篇模板有关毕业论文网,关于针对专利文献的韩汉机器翻译中模板的实现方法相关毕业论文题目范文。免费优秀的关于模板及机器翻译及语言方面论文范文资料,适合模板论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:本文提出一种,针对专利文献的机器翻译系统中,通过人工撰写模板,提高翻译准确率的同时节省时间和人力的方法.此方法不仅仅限于韩汉翻译系统,也可广泛应用于其他语言之间的翻译系统.
关 键 词:模板;专利文献韩汉机器翻译
中图分类号:TP391.2
随着计算机科学技术、特别是自然语言处理技术的高速发展,机器翻译技术可以利用其发展而不断进步,已成为未来翻译领域的前沿课题以及大势所趋.自2007年韩国专利文献被纳入PCT最低文献量之后,世界范围内对韩国专利文献的关注度也越显突出.本文介绍一种能够提高专利文献韩汉机器翻译引擎的翻译质量的方法,即基于模板的专利文献韩汉机器翻译研究方法.
1模板的翻译引擎
机器翻译领域中,统计机器翻译的基本思想即是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译.但统计翻译引擎需要大量的语料进行训练,语料的搜集量以及准确性直接影响其翻译质量,因此怎样有效的搜集大量的对齐语料,并能保证语料的准确性是构建统计机器翻译引擎的一个非常关键的因素,特别是研究人力有限的情况下,这将是一个非常庞大而长期的工程.
基于模板的翻译引擎可在有限研究人力的情况下,弥补统计翻译引擎带来的弊端.运用专利文献的语言特征,编写相对应的模板,针对性比较强,模板覆盖范围比较广,有效解决机器翻译中译文语序混乱、不符合专利叙写规范等问题.
2模板的设计
2.1专利文献的特点
仔细观察专利文献的语言特征,不难看出,专利文献带有比较特殊的语法结构.例如:
(1)本发明提供一种由充气式圆环形圈构成的婴幼儿游泳圈;
(2)本发明涉及一种股骨颈保护装置;
(3)本发明涉及冶金渣处理装置;
这些语句都含有“本发明提供/涉及等”的句式;
(4)根据权利要求1所述的股骨颈保护装置,其特征在于:所述的凸缘(12)在股骨(30)与股骨颈(20)相接的表面上略呈弧曲状;
(5)根据权利要求4-6中任一项所述的方法,其特征在于,在步骤B中,所述逐点计算所有计算块的运动矢量的步骤.
上述(4),(5)的例句中都包含“根据权利要求xx,其特征在于等”的句式.基于模板的机器翻译研究即是利用上述专利文献的语言特征,人工撰写对应的语法模板,提高翻译文的可读性.
2.2模板设计思路
人工撰写模板的意义其实就在于,用计算机语言编写人工语言的语法规则,使计算机熟悉人工语言语法.因此,模板的设计需要考虑每一句的语序安排,以及如何针对性的撰写模板的问题.
图1
如上述举例,韩文和中文的语序存在差异,撰写模板时应考虑此类现象.
3模板的撰写方法
模板编写是可运用正则文法的表达式,正则文法描述的是搜索文本正文时需要匹配的一个或者多个字符串,因此可用作于将字符模式与要搜索的字符串相匹配的模板.
表1
[]标记括号表达式的开始和结尾.[ABC]与“ABC”或包括“ABC”的字符串匹配.
{}标记限定符表达式的开始和结尾.a{2,3}与“aa”和“aaa”匹配.
+一次或多次匹配前面的字符或子表达式.zo+与“zo”和“zoo”匹配,但与“z”不匹配.
假如有“abc/ef/g/hi”这么一段自然语言语句,对应的目标语言为“ABC/HI/EF/G”的语序,那么运用上述符号,可编写以下模板的表达式:
(0){abc}+(1){ef}+(2){g}+(3){hi}等于等于>(0){ABC}+(1){HI}+(2){EF}+(3){G}
图2
3.1源语言表达方式
由于源语言是韩文,因此规定源语言的参数都以“K”为开头,这样的设置,方便了今后其他语言之间的机器翻译系统的开发.
TEM[max]:无限变量,可以是一个字符,也可以是一个词组,或者一段语句,语句可以带任何标点符号.
KRN:韩文词汇,也可以是词组,复合词等.
KRN_M:韩文短语,包括助词和谓语的组合,或者主语和助词的组合.
KYM:韩文符号,一般指逗号或者分号.
KNU:韩文序列号,专利文中常见的序列号,如第一,第二,或者权利要求1,权利要求2,图1,图2等.
3.2目标语言表达方式
同样的,目标语言为中文,因此目标语言参数部分都以“C”为开头.
TEM[max]:无限变量,与上述韩文中的符号一样,没有长度限制.
CRN:中文词汇,也可以是词组,复合词等.
CRN_M:中文短语,包括助词和谓语的组合,或者主语和助词的组合.
CYM:中文符号,一般指逗号或者分号.
CNU:中文序列号.
模板中,“@”为促发点,“$”作为结束点.
4模板的实现与效果
4.1模板的实现
图3
整套翻译系统是由记忆、模板、规则、统计相结合的方式运行.本论文的模板的实现方法是其中的一环,当输入一段韩文语句,系统会对其进行分词,之后根据记忆库的资源,进行记忆匹配,由于记忆匹配是100%的完整匹配,因此很多情况下,无法找到匹配的语句.之后引擎会根据模板库的资源,进行模板的匹配,一个语句只能匹配一个对应的模板,通过模板的匹配可调整译文的语序,提高译文的可读性.
4.2模板的分类
模板可根据促发词在语句中的位置,可分为首词模板、尾词模板、任意词模板.(1)首词模板.促发词为语句中的首词的情况下,可写成首词模板.大部分是摘 要中出现此类模板.例如“本发明公开等”“根据本发明等”等.
源语言:1.
目标语言:图1是本发明的斜视图.
@
(0){KRN