这是一篇语音类毕业论文模板范文,与语音识别技术的过程和应用相关自考毕业论文开题报告。是论文模板专业与语音及状态及时间方面相关的免费优秀学术论文范文资料,可作为语音方面的大学硕士与本科毕业论文开题报告范文和职称论文论文写作参考文献下载。
摘 要:利用语音传递信息是人类最常用,最方便,最快捷的一种方式.人类最常用的传递信息的方式就是声音,随着现代信息化时代的不断发展,人们更加深入的研究语音信号的处理技术,并且由于语音的特殊作用及其重要性,还有其对人们生活的不断深入的影响,使得其十分受关注.语音识别技术就是将说话人的语言转变为计算机可以听懂的语言,语音识别技术的涉及面极广,它涉及到多个学术领域,如计算机科学、语言学、神经生理学、信号处理以及人工智能等.
关 键 词 :语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用
中图分类号:TN912.34
1.语音识别技术基本原理及过程介绍
语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成.第一步预处理,主要有A/D变换、预加重和端点检测部分.经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别.系统框图如下[1].
图1 一般语音识别系统框图
2.语音识别方法
目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法.
2.1 动态时间规整
动态时间规整(DTW)是早期的模式匹配方法.由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐.DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数.动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别.
2.2 隐马尔可夫模型
隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性.它是由马尔可夫链演变来的.[2]
HMM可用三元组表示:λ等于(π,A,B)
A:状态转移概率的集合.
B:观察概率的集合,表示每个状态输出相应观察值的概率.
π:系统初始状态的集合.
这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程.
HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的.HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3].
尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足.HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关.假设二“不动性假设”:状态与具体时间无关.假设三“输出值的Markov假设”:输出仅与当前状态有关.这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4].
这篇论文来源:http://www.sxsky.net/moban/458372.html
2.3 人工神经网络
人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统.ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”.ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理.单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络.ANN更接近于人的认知过程.人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现.
3.语音识别的应用和前景
如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面.
语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率.语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车