決策模型pdf_聲學模型GMM-HMM

㈠聲學模型GMM-HMM

在語音識別中，HMM的每個狀態都可對應多幀觀察值，觀察值概率的分布不是離散的，而是連續的，適合用GMM來進行建模。HMM模塊負責建立狀態之間的轉移概率分布，而GMM模塊則負責生成HMM的觀察值概率。

模型自適應：由於各地口音、採集設備、環境雜訊等音素的差異，已訓練過的GMM-HMM很可能和新領域的測試數據不匹配，導致識別效果變差，需要做自適應訓練。

MAP(最大後驗概率估計)：演算法本質是重新訓練一次，並且平衡原有模型參數和自適應數據的估計。

MLLR（最大似然線性回歸）：演算法核心思想是將原模型的參數進行線性變換後再進行識別，其優點是使用少量語音即可以對所有模型進行自適應訓練，只要得到線性變換矩陣即可。

每個音素（或三音素）用一個 HMM 建模，每個 HMM 狀態的發射概率對應一個 GMM。GMM-HMM 的目的即是找到每一幀屬於哪個音素的哪個狀態。GMM-HMM 的訓練使用自我迭代式的 EM 演算法，更直接的方式是採用維特比訓練，即把EM演算法應用到GMM參數的更新上，要求顯示的輸入每一幀對應的狀態，使用帶標注的訓練數據更新GMM的參數，這種訓練方法比Baum-Welch演算法速度更快，模型性能卻沒有明顯損失。

1、首次對齊時把訓練樣本按該句的狀態個數平均分段。

2、每次模型參數的迭代都需要成對的使用gmm-acc-stats-ali和gmm-est工具。

3、進行多輪迭代訓練後使用gmm-align-compiled工具通過其內部的維特比演算法生成對齊結果。

單因子模型的基本假設是：一個音素的實際發音，與其左右相鄰或相近的音素（上下文音素）無法。三因子結構中的每一個音素建模實例，都由其中心音素及其左右各一個上下文音素共同決定。無論是單因子還是三因子，通常都使用三狀態的HMM結構來建模。為了解決三因子模型參數爆炸問題，將所有的三因子模型放到一起進行相似性聚類（決策樹），發音相似的三因子被聚類到同一個模型，共享參數。訓練腳本：steps/train_deltas.sh，目標訓練一個10000狀態的三因子系統：

1、以單因子為基礎，訓練一個5000狀態的三因子模型

2、用5000狀態的模型重新對訓練數據進行對齊，其對齊質量必然比單因子系統對齊質量高

3、用新的對齊再去訓練一個10000狀態的三因子系統

phone-id：音素的 ID，參見 data/lang/phones.txt，強制對齊的結果不含 0（表示<eps>）和消歧符 ID；

hmm-state-id：單個 HMM 的狀態 ID，從 0 開始的幾個數，參見 data/lang/topo；

pdf-id：GMM 的 ID，從 0 開始，總數確定了 DNN 輸出節點數，通常有數千個；

transition-index：標識單個 Senone HMM 中一個狀態的不同轉移，從 0 開始的幾個數；

transition-id：上面四項的組合 (phone-id,hmm-state-id,pdf-id,transition-index)，可以涵蓋所有可能動作，表示哪個 phone 的哪個 state 的哪個 transition 以及這個 state 對應的 pdf 和這個 transition 的概率，其中元組 (phone-id,hmm-state-id,pdf-id) 單獨拿出來，叫 transition-state，與 transition-id 都從1開始計數。

關系：transition-id可以映射到唯一的transition-state，而transition-state可以映射到唯一的pdf-id，因此transition-id可以映射到唯一的pdf-id。pdf-id不能唯一的映射成音素，因此kaldi使用transition-id表示對齊的結果。

語音識別過程是在解碼空間中衡量和評估所有的路徑，將打分最高的路徑代表的識別結果作為最終的識別結果。傳統的最大似然訓練是使正確路徑的分數盡可能高，而區分性訓練則著眼於加大這些路徑之間的打分差異，不僅要使正確路徑的分數僅可能高，還要使錯誤路徑尤其是易混淆路徑的分數盡可能低。

常用的區分性訓練准則有最大互信息、狀態級最小貝葉斯風險、最小音素錯誤。

分子：對於某條訓練數據，其正確標注文本在解碼空間中對應的所有路徑的集合。

分母：理論上值整個搜索空間。通常會通過一次解碼將高分路徑過濾出來，近似整個分母空間，從而有效的減小參與區分性優化的分母規模。

詞格（Lattice）：分子、分母其實都是解碼過程中一部分解碼路徑的集合，將這些路徑緊湊有效的保存下來的數據結構就是詞格。

㈡有哪位大神能通俗易懂的解釋下probit模型嗎

對於那些在決策分析中尋求深入理解的朋友們，讓我們一起來探索probit模型的奧秘，這個強大的工具是如何在離散選擇模型中脫穎而出的。相較於廣受歡迎的logit模型，probit模型的獨特之處在於其隨機擾動項背後的分布假設。簡單來說，probit模型依賴於正態分布，而logit模型則依賴於邏輯斯蒂分布。

想像一下，當我們面對一個典型的二分類問題，決策者的選擇就像一場未被揭示的「貝努里實驗」。在這個隱性世界中，有一個我們無法直接觀測的潛在變數y*，決定著行為的發生。關鍵的區別就隱藏在這個潛變數的分布上。

在probit模型的框架下，這個潛變數的分布至關重要。其擾動項被假設為標准正態分布的累積密度函數（cdf），這賦予了它獨特的特性。數學上，這個假設可以表示為：

Pr(y* > 0) = Φ(β'x)

其中，Φ是標准正態分布的概率密度函數(pdf)，而β'x則是模型參數和特徵變數的線性組合。

利用最大似然估計(MLE)方法，我們可以優雅地估計參數β的值，從而使模型更加精準地預測決策者的傾向。probit模型的這種穩健性和理論基礎，使得它在經濟學、社會學和統計學等領域中得到了廣泛應用。

總的來說，probit模型通過其正態分布的特性，為我們揭示了隱藏在選擇背後的細微概率分布，提供了一種更為精細的決策分析工具。希望這個簡明易懂的解釋能幫助你更好地理解probit模型的魅力所在。

熱點內容

美團app的點擊騎車在哪裡發布：2025-07-02 10:33:22 瀏覽：723

程序員標配條件發布：2025-07-02 10:31:29 瀏覽：211

免費電腦解壓app排行榜前十名發布：2025-07-02 10:29:58 瀏覽：189

順序表查找演算法發布：2025-07-02 10:16:13 瀏覽：463

整合包解壓後是亂碼發布：2025-07-02 10:14:33 瀏覽：300

xp系統如何查找伺服器名發布：2025-07-02 09:58:19 瀏覽：983

土的壓縮系數的確定方法發布：2025-07-02 09:58:13 瀏覽：647

程序員家裡健身發布：2025-07-02 09:56:47 瀏覽：620

電視看籃球app哪個好發布：2025-07-02 09:43:00 瀏覽：47

高中畢業當程序員發布：2025-07-02 09:16:33 瀏覽：245

php標簽屬性大全發布：2025-07-02 09:11:19 瀏覽：897

遠程訪問伺服器ip地址發布：2025-07-02 08:48:30 瀏覽：312

程序員吃雞蛋炒菜發布：2025-07-02 08:21:51 瀏覽：174

在哪裡看俄羅斯電視劇app 發布：2025-07-02 08:07:30 瀏覽：308

怎麼找資料庫伺服器地址發布：2025-07-02 07:51:15 瀏覽：487

伺服器調試怎麼翻譯發布：2025-07-02 07:47:28 瀏覽：921

php如何處理ajax請求發布：2025-07-02 07:33:33 瀏覽：211

php數組下標存在發布：2025-07-02 07:29:29 瀏覽：707

php獲取ip歸屬地發布：2025-07-02 07:24:51 瀏覽：175

撩女程序員怎麼辦發布：2025-07-02 07:24:04 瀏覽：508

導航:首頁 > 文檔加密 > 決策模型pdf

決策模型pdf

與決策模型pdf相關的資料