导航:首页 > 文档加密 > 决策模型pdf

决策模型pdf

发布时间:2024-09-27 02:13:50

㈠ 声学模型GMM-HMM

在语音识别中,HMM的每个状态都可对应多帧观察值,观察值概率的分布不是离散的,而是连续的,适合用GMM来进行建模。HMM模块负责建立状态之间的转移概率分布,而GMM模块则负责生成HMM的观察值概率。

模型自适应: 由于各地口音、采集设备、环境噪声等音素的差异,已训练过的GMM-HMM很可能和新领域的测试数据不匹配,导致识别效果变差,需要做自适应训练。

MAP(最大后验概率估计): 算法本质是重新训练一次,并且平衡原有模型参数和自适应数据的估计。

MLLR(最大似然线性回归): 算法核心思想是将原模型的参数进行线性变换后再进行识别,其优点是使用少量语音即可以对所有模型进行自适应训练,只要得到线性变换矩阵即可。

每个音素(或三音素)用一个 HMM 建模,每个 HMM 状态的发射概率对应一个 GMM。GMM-HMM 的目的即是找到每一帧属于哪个音素的哪个状态。GMM-HMM 的训练使用自我迭代式的 EM 算法,更直接的方式是采用维特比训练,即把EM算法应用到GMM参数的更新上,要求显示的输入每一帧对应的状态,使用带标注的训练数据更新GMM的参数,这种训练方法比Baum-Welch算法速度更快,模型性能却没有明显损失。

1、首次对齐时把训练样本按该句的状态个数平均分段。

2、每次模型参数的迭代都需要成对的使用gmm-acc-stats-ali和gmm-est工具。

3、进行多轮迭代训练后使用gmm-align-compiled工具通过其内部的维特比算法生成对齐结果。

单因子模型的基本假设是:一个音素的实际发音,与其左右相邻或相近的音素(上下文音素)无法。三因子结构中的每一个音素建模实例,都由其中心音素及其左右各一个上下文音素共同决定。无论是单因子还是三因子,通常都使用三状态的HMM结构来建模。为了解决三因子模型参数爆炸问题,将所有的三因子模型放到一起进行相似性聚类(决策树),发音相似的三因子被聚类到同一个模型,共享参数。训练脚本:steps/train_deltas.sh,目标训练一个10000状态的三因子系统:

1、以单因子为基础,训练一个5000状态的三因子模型

2、用5000状态的模型重新对训练数据进行对齐,其对齐质量必然比单因子系统对齐质量高

3、用新的对齐再去训练一个10000状态的三因子系统

 phone-id:音素的 ID,参见 data/lang/phones.txt,强制对齐的结果不含 0(表示<eps>)和消歧符 ID;

hmm-state-id:单个 HMM 的状态 ID,从 0 开始的几个数,参见 data/lang/topo;

 pdf-id:GMM 的 ID,从 0 开始,总数确定了 DNN 输出节点数,通常有数千个;

 transition-index:标识单个 Senone HMM 中一个状态的不同转移,从 0 开始的几个数;

 transition-id:上面四项的组合 (phone-id,hmm-state-id,pdf-id,transition-index),可以涵盖所有可能动作,表示哪个 phone 的哪个 state 的哪个 transition 以及这个 state 对应的 pdf 和这个 transition 的概率,其中元组 (phone-id,hmm-state-id,pdf-id) 单独拿出来,叫 transition-state,与 transition-id 都从1开始计数。

关系:transition-id可以映射到唯一的transition-state,而transition-state可以映射到唯一的pdf-id,因此transition-id可以映射到唯一的pdf-id。pdf-id不能唯一的映射成音素,因此kaldi使用transition-id表示对齐的结果。

语音识别过程是在解码空间中衡量和评估所有的路径,将打分最高的路径代表的识别结果作为最终的识别结果。传统的最大似然训练是使正确路径的分数尽可能高,而区分性训练则着眼于加大这些路径之间的打分差异,不仅要使正确路径的分数仅可能高,还要使错误路径尤其是易混淆路径的分数尽可能低。

常用的区分性训练准则有最大互信息、状态级最小贝叶斯风险、最小音素错误。

分子:对于某条训练数据,其正确标注文本在解码空间中对应的所有路径的集合。

分母:理论上值整个搜索空间。通常会通过一次解码将高分路径过滤出来,近似整个分母空间,从而有效的减小参与区分性优化的分母规模。

词格(Lattice):分子、分母其实都是解码过程中一部分解码路径的集合,将这些路径紧凑有效的保存下来的数据结构就是词格。

㈡ 有哪位大神能通俗易懂的解释下probit模型吗

对于那些在决策分析中寻求深入理解的朋友们,让我们一起来探索probit模型的奥秘,这个强大的工具是如何在离散选择模型中脱颖而出的。相较于广受欢迎的logit模型,probit模型的独特之处在于其随机扰动项背后的分布假设。简单来说,probit模型依赖于正态分布,而logit模型则依赖于逻辑斯蒂分布。

想象一下,当我们面对一个典型的二分类问题,决策者的选择就像一场未被揭示的“贝努里实验”。在这个隐性世界中,有一个我们无法直接观测的潜在变量y*,决定着行为的发生。关键的区别就隐藏在这个潜变量的分布上。



在probit模型的框架下,这个潜变量的分布至关重要。其扰动项被假设为标准正态分布的累积密度函数(cdf),这赋予了它独特的特性。数学上,这个假设可以表示为:


Pr(y* > 0) = Φ(β'x)

其中,Φ是标准正态分布的概率密度函数(pdf),而β'x则是模型参数和特征变量的线性组合。



利用最大似然估计(MLE)方法,我们可以优雅地估计参数β的值,从而使模型更加精准地预测决策者的倾向。probit模型的这种稳健性和理论基础,使得它在经济学、社会学和统计学等领域中得到了广泛应用。



总的来说,probit模型通过其正态分布的特性,为我们揭示了隐藏在选择背后的细微概率分布,提供了一种更为精细的决策分析工具。希望这个简明易懂的解释能帮助你更好地理解probit模型的魅力所在。

阅读全文

与决策模型pdf相关的资料

热点内容
必修一数学PDF 浏览:775
javascriptphpjsp 浏览:811
深圳一程序员退房完整版 浏览:294
后台管理app哪个好 浏览:766
加密锁无模块什么意思 浏览:22
加密国度英文 浏览:20
科沃斯用了app怎么使用按键 浏览:663
爬虫编译器价格 浏览:885
支付宝视频app会员自动扣费怎么关 浏览:230
单片机和wifi模块 浏览:725
python倒序二进制代码 浏览:362
广东程序员离职 浏览:586
golang核心编程 浏览:170
中小学计算法则 浏览:85
无职转生哪个app能看 浏览:580
夏梦迪在哪个app 浏览:107
c编译软件cl 浏览:933
逗比的程序员头像 浏览:984
单片机原理作业答案 浏览:230
文件夹的东西怎么能转成文档 浏览:968