语音识别的声学模型

2024-01-29 08:20

1个回答

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。
上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。
英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

相关问答
如何识别正版高达模型
1个回答2022-07-29 15:42
外包装下角一定是BANDAI 字样(白字红底) 另一角有该机系列的标志~~BANDAI 年份 产地 上角会有很小的 创通XXXXXX(日文懒得打了)字样 不知道现在...
全文
关于模型的知识 高达的
1个回答2022-09-22 07:00
HG,TV,MG。就那么多种喜欢哪个买哪个
模型的型四字成语
1个回答2024-03-04 17:25
1. 形状的形四字词语 奇形怪状、 形单影只、 形影不离、 自惭形秽、 相形见绌、 原形毕露、 形迹可疑、 形形 *** 、 形影相吊、 ...
全文
请问这个模型的原型机体是什么?出自哪部动画?
1个回答2022-11-26 18:03
变形金刚吗?
关于国产高高的高达模型..请各位玩过模型的来好吗?
1个回答2022-09-15 02:55
高达很有知名度。
模型的模怎么读?
1个回答2023-10-08 14:35
模型的模念mó。 一、模的拼音和释义: (1)模[mó] 1、法式,规范,标准。 2、仿效。 3、特指“模范”。 (2)模[mú] 1、人的长相或装束打扮的样子。 2、用压制或浇注的...
全文
模拟模型
1个回答2024-01-26 22:32
根据系统或过程的特性,按一定规律用计算机程序语言模拟系统原型的数学方程。
数学建模的模型是怎么做出来的
1个回答2024-06-17 13:26
是分析出来想出来的,是看人家的方法之后运用的你的问题上的,和应用题差不多,只是问题复杂了,方法复杂了。
模型手机和真机有什么区别?
1个回答2022-10-21 16:25
模型机可以改为真机