㈠ 聲學模型GMM-HMM
在語音識別中,HMM的每個狀態都可對應多幀觀察值,觀察值概率的分布不是離散的,而是連續的,適合用GMM來進行建模。HMM模塊負責建立狀態之間的轉移概率分布,而GMM模塊則負責生成HMM的觀察值概率。
模型自適應: 由於各地口音、採集設備、環境雜訊等音素的差異,已訓練過的GMM-HMM很可能和新領域的測試數據不匹配,導致識別效果變差,需要做自適應訓練。
MAP(最大後驗概率估計): 演算法本質是重新訓練一次,並且平衡原有模型參數和自適應數據的估計。
MLLR(最大似然線性回歸): 演算法核心思想是將原模型的參數進行線性變換後再進行識別,其優點是使用少量語音即可以對所有模型進行自適應訓練,只要得到線性變換矩陣即可。
每個音素(或三音素)用一個 HMM 建模,每個 HMM 狀態的發射概率對應一個 GMM。GMM-HMM 的目的即是找到每一幀屬於哪個音素的哪個狀態。GMM-HMM 的訓練使用自我迭代式的 EM 演算法,更直接的方式是採用維特比訓練,即把EM演算法應用到GMM參數的更新上,要求顯示的輸入每一幀對應的狀態,使用帶標注的訓練數據更新GMM的參數,這種訓練方法比Baum-Welch演算法速度更快,模型性能卻沒有明顯損失。
1、首次對齊時把訓練樣本按該句的狀態個數平均分段。
2、每次模型參數的迭代都需要成對的使用gmm-acc-stats-ali和gmm-est工具。
3、進行多輪迭代訓練後使用gmm-align-compiled工具通過其內部的維特比演算法生成對齊結果。
單因子模型的基本假設是:一個音素的實際發音,與其左右相鄰或相近的音素(上下文音素)無法。三因子結構中的每一個音素建模實例,都由其中心音素及其左右各一個上下文音素共同決定。無論是單因子還是三因子,通常都使用三狀態的HMM結構來建模。為了解決三因子模型參數爆炸問題,將所有的三因子模型放到一起進行相似性聚類(決策樹),發音相似的三因子被聚類到同一個模型,共享參數。訓練腳本:steps/train_deltas.sh,目標訓練一個10000狀態的三因子系統:
1、以單因子為基礎,訓練一個5000狀態的三因子模型
2、用5000狀態的模型重新對訓練數據進行對齊,其對齊質量必然比單因子系統對齊質量高
3、用新的對齊再去訓練一個10000狀態的三因子系統
phone-id:音素的 ID,參見 data/lang/phones.txt,強制對齊的結果不含 0(表示<eps>)和消歧符 ID;
hmm-state-id:單個 HMM 的狀態 ID,從 0 開始的幾個數,參見 data/lang/topo;
pdf-id:GMM 的 ID,從 0 開始,總數確定了 DNN 輸出節點數,通常有數千個;
transition-index:標識單個 Senone HMM 中一個狀態的不同轉移,從 0 開始的幾個數;
transition-id:上面四項的組合 (phone-id,hmm-state-id,pdf-id,transition-index),可以涵蓋所有可能動作,表示哪個 phone 的哪個 state 的哪個 transition 以及這個 state 對應的 pdf 和這個 transition 的概率,其中元組 (phone-id,hmm-state-id,pdf-id) 單獨拿出來,叫 transition-state,與 transition-id 都從1開始計數。
關系:transition-id可以映射到唯一的transition-state,而transition-state可以映射到唯一的pdf-id,因此transition-id可以映射到唯一的pdf-id。pdf-id不能唯一的映射成音素,因此kaldi使用transition-id表示對齊的結果。
語音識別過程是在解碼空間中衡量和評估所有的路徑,將打分最高的路徑代表的識別結果作為最終的識別結果。傳統的最大似然訓練是使正確路徑的分數盡可能高,而區分性訓練則著眼於加大這些路徑之間的打分差異,不僅要使正確路徑的分數僅可能高,還要使錯誤路徑尤其是易混淆路徑的分數盡可能低。
常用的區分性訓練准則有最大互信息、狀態級最小貝葉斯風險、最小音素錯誤。
分子:對於某條訓練數據,其正確標注文本在解碼空間中對應的所有路徑的集合。
分母:理論上值整個搜索空間。通常會通過一次解碼將高分路徑過濾出來,近似整個分母空間,從而有效的減小參與區分性優化的分母規模。
詞格(Lattice):分子、分母其實都是解碼過程中一部分解碼路徑的集合,將這些路徑緊湊有效的保存下來的數據結構就是詞格。
㈡ 有哪位大神能通俗易懂的解釋下probit模型嗎
對於那些在決策分析中尋求深入理解的朋友們,讓我們一起來探索probit模型的奧秘,這個強大的工具是如何在離散選擇模型中脫穎而出的。相較於廣受歡迎的logit模型,probit模型的獨特之處在於其隨機擾動項背後的分布假設。簡單來說,probit模型依賴於正態分布,而logit模型則依賴於邏輯斯蒂分布。想像一下,當我們面對一個典型的二分類問題,決策者的選擇就像一場未被揭示的「貝努里實驗」。在這個隱性世界中,有一個我們無法直接觀測的潛在變數y*,決定著行為的發生。關鍵的區別就隱藏在這個潛變數的分布上。
在probit模型的框架下,這個潛變數的分布至關重要。其擾動項被假設為標准正態分布的累積密度函數(cdf),這賦予了它獨特的特性。數學上,這個假設可以表示為:
其中,Φ是標准正態分布的概率密度函數(pdf),而β'x則是模型參數和特徵變數的線性組合。
利用最大似然估計(MLE)方法,我們可以優雅地估計參數β的值,從而使模型更加精準地預測決策者的傾向。probit模型的這種穩健性和理論基礎,使得它在經濟學、社會學和統計學等領域中得到了廣泛應用。
總的來說,probit模型通過其正態分布的特性,為我們揭示了隱藏在選擇背後的細微概率分布,提供了一種更為精細的決策分析工具。希望這個簡明易懂的解釋能幫助你更好地理解probit模型的魅力所在。