手语类有关论文范文,与手语文本自动分词的设计与实现相关毕业论文模板
本论文是一篇手语类有关毕业论文模板,关于手语文本自动分词的设计与实现相关毕业论文题目范文。免费优秀的关于手语及计算机及分词方面论文范文资料,适合手语论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
摘 要:手语是我国听障人重要交流之一,手语文本自动分词系统对听障人的政治、文化、生活的发展有着重要意义.研发了手语文本自动分词系统,这是在汉语切分的基础上针对手语特点进行手语切分,而且是利用计算机对文本里面的内容进行自动分词.该系统包括基本的自动分词方法、歧义的处理等基本模块,每一环节互相协助,互相依赖,共同决定该系统的价值、质量和应用水平.
关 键 词:手语文本;自动分词;词典;切分
中图分类号:TP391文献标识码:A文章编号:2095-2163(2013)06-0081-04
0研究背景
目前国外已研制开发了一定數量的手语机器翻译系统,其中的手语文本的特点是诸如美国手语的英语句子本身就有空格,并不需要自动分词技术.但现如今中国在这方面的研究仍是一片空白,然而国内现有2700万听障人,并且新生聋儿正以每年3万例的速度在增加.为了保障残疾人充分平等地参与社会生活,无差地共享社会物质文化成果,以及满足听障人的需要,并且提供无障碍服务,对手语机器翻译系统的开发已势在必行,本文研究旨在为今后中国手语机器翻译系统的设计与实现创造基础现实条件.
由于计算机并不如人类那般具有智能,能够有效地切分出手语文本,进而达到可适用于聋人使用的语言水平.如,“我和你一起吃饭”,在与听障人交流的时候,直接说“吃饭”,计算机分词不能实现词语删减,所以计算机分词的能力是有限的.
通过研究发现,中国手语植根于中国汉语的大环境之中.不论提出哪种转写方案,转写后的中国手语文本都面临着汉语所特有的自动分词问题[1],这是手语处理的关键技术之一,也是语言智能化处理的基础工程.只有对手语句子进行正确无误的分词,才有可能实现对自然手语的机器理解,为建设手语语料库、手语机器翻译提供必备前提.
手语信息处理是以“手势”为基础[2],手语文本自动分词所面临的问题就是如何将文本内容自动切分出单个手势词,即使得计算机通过空格作为标志切分得到每一句话的词.为了提高“手势”切分准确率,就需要针对手语的特点,实现对手语文本自动分词系统的设计与开发.
1手语介绍
汉语中最小的语言单位是字,而手语中则是手势(sign)[3].手势是手语体系中最小的语言单位,无法再进行分割.这也是中国手语有别于汉语的地方.如果一个复合词由两个手势构成,这个手势就是语素.语素就是构成词的词素[2].所以手势可以是一个词,也可以是一个词素.比如“妻子”,在汉语分词里是一个词的单位,但在手语里却是合成词,因为手语对“妻子”的表示是“结婚”+“女人”,或者“女人”+“结婚”,这样本来在汉语里是一个语素的“妻子”,在手语里却是由两个语素构成的合成词.这种情况在中国手语里大量存在,经常是汉语里一个名词为一个语素,在手语里却变成了两个语素,甚至三、四个语素.手语文本的切分规则就是以手势为单位,词与词之间则用空格分开.
1.1词
汉语中的一个词汇,用手语可以打出多个手势.以一个词为词根,做前缀或后缀.同一个词根有着不同的手势.不同含义有着相似手语打法的词(同音,借代).不同词有同一手势.不同的词根都代表的一个手势.成语、歇后语则需逐次翻译每一个词.
1.2手语句子划分的特点
(1)“的”(定)、“地”(状)、“得”(补)这样的词语,在手语中是不用表达的.
例:“的”,北京的工业发展很快.(形容词+结构助词)
汉语划分:北京的工业发展很快.
手语划分:北京的工业发展很快.
(2)动宾一体.当句子出现动宾一体的时候,手语会将其转化为一个手势去表达该动作.
(3)动词+介词(到、去、在、向、于、自).在手语中,介词不用打手势,跟随前一个动词表达动词的手势即可.
(4)动词+动态助词(了).同样跟随前一个词语.
(5)感叹语气.在手语中,感叹词也常省略.
(6)状语倒装.在这种现象里,聋人强调的是动词.
(7)判断词.省略判断动词“是”.
(8)名词.在手语中,部分名词需要逐字划分的.包括专业名词、普通名词,同一个名词可能需要多个手势组成.
(9)数量词.修饰数量词作定语成分可省略、修饰数量词作定语中的量词可省略,数量词与字母有相同的手势.
2手语文本自动分词技术
中国手语是一种独立的语言,本身具有象形表意的功能,由于汉语的影响和渗透,又增加了表音和表字的功能,中国手语和汉语之间的关系是借用与被借用的关系,这意味着中国手语跟汉语既有联系,又有区别[5].中国手语分词可以借鉴国内外分词技术及算法研究的优势[6],同时从自身的词法、句法等出发,提出与之相应的手语分词方案[7-8].本研究的手语文本自动分词系统结合词典、规则的方法[9].两种方法进行结合,并互为补充,力求找到最合适手语文本自动分词的平衡点.
手语文本中的词通用还原法切分手语文本内容时存在一些普遍的还原现象[10].
概念:假设手语文本内容是“HF”,F∈M,M为手语词典,其中H为词根(或一个手势),S词缀.那么可直接切分为HF→H+F的形式.
按照通用还原法的概念,可采用基于手势词缀的逆向最大匹配算法[11].本研究的逆向最大匹配算法是:在手语文本中“HF1F2”,F1∈M,F2∈M,M为手势词典,其中F1、F2、H分别代表第一个手势、第二个手势、词根的意思.如果采用该方法,则切出的结果为HF1F2F→H+F1+F2.
手语文本自动分词在切分过程中还发现存在一些歧义现象的问题,对于切分出来的结果含有二重意思,如此则会影响切分效率[1].因此,为了确保切分的准确度,必须合理有效地处理歧义现象.双向扫描法和逐词扫描法是歧义收集的两种方法[10].本系统开发采用的方法是双向扫描法,这种算法处理交集字段时:首先通过以下两种方法分别切分字符串歧义的个数.
(1)发现切分个数不同,选择少的返回;
(2)发现相同但字符串不同,再处理.因为切分字符串个数少,字段的长度就比较长.而且已经知道如果词越长,信息量就越大,所以最好不要切分长词.
文中采用歧义收集算法流程图来处理交集歧义,如图1所示.
3手语文本自动分词的设计
运行要求:支持本系统运行的环境则需要在Windowsxp或Windows7下,使用MyEclipse7.0软件.
3.1系统总流程
该系统是基于词典、规则与统计语言模型的汉语切分系统,其总体流程如图2所示.
3.2创建手语词典
在进行手语切分时,并不能完全照搬汉语切分方法[12-13],需根据手语词性语法特征进行正确切分.手语词本身没有阴、阳性的区别,也没有单、复数的区别,不存在主、宾格的变化,所有格主要是通过语序、词界等隐性的句法形式来确定.中国手语除了一小部分单字手势词诸如身体部位名称、姓氏名称、行为动作和事物性质特点之外,其余的绝大部分均为双字手势词,三字和四字手势词所占的比重非常少,因而为文本的切分带来了极大的便利.
根据上面的现象,文中建立一个手语词典,并且是.txt的文本.同时基于上面提出的现象,整理词典,将单字的词去掉,逐字翻译的词也删掉,剩下的就是动宾一体、一个手势的词.
手语类有关论文范文,与手语文本自动分词的设计与实现相关毕业论文模板参考文献资料: