全文预览

基于统计的语音识别方法分析报告[统计学经典理论]

上传者:hnxzy51 |  格式:doc  |  页数:18 |  大小:0KB

文档介绍
声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。Р汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。Р目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。目前也有参照英语的三音子(triphone)的上下文相关(CD)建模方法和使用基于senone的分布共享模型(SDM)方法进行的建模研究工作[22]。Р基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A ,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。具体如下:Р(1)模型的结构包括状态数N的确定,每个状态对应的观测事件数M(有些文献假定观测矢量是在经历各非空转移时产生的输出),还有Markov链形状的确定,这主要由π,A两组参数决定。根据L. Rabiner的实验研究以及国内一些学者的研究经验[16]表明目前Markov链状态数为6比较理想,超过6个状态的模型计算量太大而且识别准确率增加并不明显。Р隐马尔可夫模型的结构主要有两种,一种是各态历经的,另一种是从左到右的。状态的转移又可分为吸收的和不吸收的,不吸收是指状态可以从一个任意状态转移到下一个任意状态,吸收的是指状态只能转移到下标等于或大于当前状态下标的那种转移,而且下标小的状态将优先于下标更大的状态,而极少或几乎没有返回到以前状态的可能性。根据语音信号的特性,目前比较常用

收藏

分享

举报
下载此文档