導航:首頁 > 源碼編譯 > 語音識別演算法原理不完全歸納

語音識別演算法原理不完全歸納

發布時間:2022-12-07 02:28:02

A. 語音識別的原理是什麼

目前,主流的大詞彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模塊所構成
信號處理及特徵提取模塊。該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環境雜訊、信道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模塊之間的關系。首先,統計語音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符號串使得:
W = argmaxP(W | O) 通過貝葉斯公式,上式可以改寫為
由於對於確定的輸入串O,P(O)是確定的,因此省略它並不會影響上式的最終結果,因此,一般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。 W = argmaxP(O | W)P(W)
從這個角度來看,信號處理模塊提供了對輸入信號的預處理,也就是說,提供了從採集的語音信號(記為S)到 特徵序列O的映射。而聲學模型本身定義了一些更具推廣性的聲學建模單元,並且提供了在給定輸入特徵下,估計P(O | uk)的方法。
為了將聲學模型建模單元串映射到符號集,就需要發音詞典發揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義一個由到U的全集的笛卡爾積,而發音詞典則是這個笛卡爾積的一個子集。並且有:
最後,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:
對於解碼器來說,就是要在由,,ui以及時間標度t張成的搜索空間中,找到上式所指明的W。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機介面的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。

B. 語音識別簡述

一、概念

語音識別是指將聲音內容轉換成文字的技術。

它是一門交叉的、非常復雜的學科,需要具備生理學、聲學、信號處理、計算機科學、模式識別、語言學、心理學等相關學科的知識。

二、發展

隨著科技的發展,語音識別技術在理論和應用方面都取得了重大突破,越來多的應用到了日常生活中。比如智能家居,車載娛樂,語音識別聽寫器、語音尋呼答疑平台、智能客服等。

三、簡單應用原理

通常語音識別有兩種工作模式,喚醒模式和識別模式。所謂喚醒模式,即應用處於待喚醒狀態,此種狀態引擎會一直在後台錄音,用於判別是否有【喚醒詞】,如果識別到喚醒詞,即轉為識別模式。所謂識別模式,是指我們說出的語音被轉為文字以及帶有特定格式的一段數據,即對於所識別到的語音進行結構化處理。處理後通常會以json的形式提供給外部應用進行再次解析處理,用於滿足應用自身功能。

比如一些支持語音功能的智能家居,首先把應用喚醒(比如,小愛同學),然後說指令(比如,開空調)。語音識別引擎識別出語義,把結果(json數據)給到APP,APP把結構化的語義進行分類處理。再比如,如果想查詢天氣,語音說「明天天氣如何」。識別引擎會根據位置信息,聯網檢索相關天氣信息提供給APP。

註:

喚醒詞:用於喚醒應用的特定語音,例如「hi,siri」,通常用戶可以自定義

C. 語音識別系統的原理

語音識別系統是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元。未知語音經過話筒變換成電信號後加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特徵,在此基礎上建立語音識別所需的模板。

然後根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特徵的選擇、語音模型的好壞、模板是否准確都有直接的關系。

語音識別系統構建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,對預先收集好的海量語音、語言資料庫進行信號處理和知識挖掘,獲取語音識別系統所需要的「聲學模型」和「語言模型」;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。

識別過程通常又可以分為「前端」和「後端」兩大模塊:「前端」模塊主要的作用是進行端點檢測(去除多餘的靜音和非說話聲)、降噪、特徵提取等;「後端」模塊的作用是利用訓練好的「聲學模型」和「語言模型」對用戶說話的特徵向量進行統計模式識別,得到其包含的文字信息,此外,後端模塊還存在一個「自適應」的反饋模塊,可以對用戶的語音進行自學習,從而對「聲學模型」和「語音模型」進行必要的「校正」,進一步提高識別的准確率。

自動語音識別技術有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的,即它的聲學信號可以在不考慮說話人試圖傳達的信息內容的情況下用數十個具有區別性的、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法、語義和語用結構分開來。

D. 語音識別系統是什麼原理

我們可以設想,在不久的將來坐在辦公司里的經理會對電腦說:「嗨!伙計,幫我通知一下公司所有員工,今天下午3:00准時開會。」這是科學家在幾十年前的設想,語音識別長久以來一直是人們的美好願望,讓計算機領會人所說的話,實現人機對話是發展人機通信的主要目標。進入2l世紀,隨著計算機的日益普及,怎樣給不熟悉計算機的人提供一個友好而又簡易的操作平台,是我們非常感興趣的問題,而語音識別技術就是其中最直接的方法之一。

20世紀80年代中期以來,新技術的逐漸成熟和發展使語音識別技術有了實質性的進展,尤其是隱馬爾可夫模型(HMM)的研究和廣泛應用,推動了語音識別的迅速發展,同時,語音識別領域也正處在一個黃金開發的關鍵時期,各國的開發人員正在向特定人到非特定人,孤立詞彙向連接詞,小詞彙量向大詞彙量來擴展研究領域,可以毫不猶豫地說,語音識別會讓計算機變得「善解人意」,許多事情將不再是「對牛彈琴」,最終用戶的口述會取代滑鼠,鍵盤這些傳統輸入設備,只需要用戶的嘴和麥克風就能實現對計算機的絕對控制。

1、隱馬爾可夫模型HMM的引入

現在假定HMM是一個輸出符號序列的統計模型,具有N個狀態S1,S2⋯Sn,在一個周期內從一個狀態轉到另一個狀態,每次轉移時輸出一個符號,轉移到了哪個狀態以及輸出什麼符號,分別由狀態轉移概率和轉移時的輸出概率來決定,由於只能觀測到輸出符號序列,不能觀測到狀態轉移序列,因此成為隱藏的馬爾可夫模型。

2、語音識別的特點

語音識別的意思是將人說話的內容和意思轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字元序列等。與說話人的識別不同,後者主要是識別和確認發出語音的人而非其中所包含的內容。語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:第一是逐字逐句聽懂而不是轉化成書面的語言文字;第二是對作者簡介:賈聰,中國地質大學機械與電子信息學院。口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥於所有詞彙的正確轉換。

3、語音識別系統的工作流程

一般來說,一套完整的語音識別系統其工作過程分為7步:①對語音信號進行分析和處理,除去冗餘信息。②提取影響語音識別的關鍵信息和表達語言含義的特徵信息。③緊扣特徵信息,用最小單元識別字詞。④按照不同語言的各自語法,依照先後次序識別字詞。⑤把前後意思當作輔助識別條件,有利於分析和識別。⑥按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。⑦結合語義,仔細分析上下文的相互聯系,對當前正在處理的語句進行適當修正。

4、音識別系統基本原理框圖及原理

語音識別系統基本原理結構如圖1所示。語音識別原理有三點:①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由於語音是可以閱讀的,也就是說聲學信號可以在不考慮說話人說話傳達的信息內容的前提下用多個具有區別性的、離散的符號來表示;③語音的交互是一個認知過程,所以絕對不能與語法、語義和用語規范等方面分裂開來。

預處理,其中就包括對語音信號進行采樣、克服混疊濾波、去除部分由個體發音的差異和環境引起的雜訊影響,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復訓練是在識別之前通過讓說話人多次重復語音,從原始語音信號樣本中去除冗餘信息,保留關鍵信息,再按照一定規則對數據加以整理,構成模式庫。再者是模式匹配,它是整個語音識別系統的核心部分,是根據一定規則以及計算輸入特徵與庫存模式之間的相似度,進而判斷出輸入語音的意思。

前端處理,先對原始語音信號進行處理,再進行特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵。

5、當前亟待解決的問題

語音識別系統的性能受到許多因素的影響,包括不同說話人的發音方式、說話方式、環境噪音、傳輸信道衰落等等。具體要解決的問題有四點:①增強系統的魯棒性,也就是說如果條件狀況變得與訓練時很不相同,系統的性能下降不能是突變的。②增加系統的適應能力,系統要能穩定連續的適應條件的變化,因為說話人存在著年齡、性別、口音、語速、語音強度、發音習慣等方面的差異。所以,系統應該有能力排除掉這些差異。達到對語音的穩定識別。③尋求更好的語言模型,系統應該在語言模型中得到盡可能多的約束,從而解決由於詞彙量增長所帶來的影響。④進行動力學建模,語音識別系統提前假定片段和單詞是相互獨立的,但實際上詞彙和音素的線索要求對反映了發聲器官運動模型特點的整合。所以,應該進行動力學建模,從而將這些信息整合到語音識別系統中去。

6、統的組成和分類

根據識別的對象不同語音識別大致上可分為3類:對孤立詞識別,對關鍵詞識別和對連續語音識別。其中,孤立詞識別的任務是識別事先已知的孤立的詞;連續語音識別的任務則是識別任意的連續語音;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全③部文字,而只是檢測已知的若干關鍵詞在何處出現,根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。

7、語音識別技術應用領域及前景展望

語音識別技術藉助飛速發展的高速信息網,可實現計算機的全球聯網和信息資源共享,因此被廣泛應用的系統有:語音輸入和控制系統,語音撥號系統、智能家電及玩具,智能電話查詢系統,資料庫檢索等方面,在咨詢服務、教育等行業,正潛移默化地改變和便利著我們的生活。此外,語音識別系統還在多媒體手機、個人掌上電腦、車載導航器GPS等方面有著巨大的應用和市場前景。

8、結語

語音識別是非常有發展潛力的一門學科,你可以設想。我們平時生活中很多地方都可以用到它,可以大大便利我們的生活和工作,比如智能手機,智能空調及冰箱,電動門,汽車導航,機器人控制,醫療設施,軍事設備等。可以毫不誇張的說,21世紀將會是語音識別廣泛流行和普及的時代,而語音識別產品和設備也會以其獨特的魅力引領時代潮流,成為時代追逐的寵兒和焦點。



E. 語音識別的技術原理是什麼

語音識別的技術原理是將一段語音信號轉換成相對應的文本信息,系統主要包含特徵提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特徵往往還需要對所採集到的聲音信號進行濾波、分幀等預處理工作,把要分析的信號從原始信號中提取出來。

之後,特徵提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特徵向量;聲學模型中再根據聲學特性計算每一個特徵向量在聲學特徵上的得分;而語言模型則根據語言學相關的理論,計算該聲音信號對應可能片語序列的概率;最後根據已有的字典,對片語序列進行解碼,得到最後可能的文本表示。

作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特徵參數同模板庫中的特徵參數進行對比,因此,只有在預處理階段得到能夠表徵語音信號本質特徵的特徵參數,才能夠將這些特徵參數進行匹配進行識別率高的語音識別。

F. 語音識別系統的原理是什麼

根據語音識別實際應用中的不同,語音識別系統可以分為:特定人與非特定人的語音識別、獨立詞與連續詞的語音識別、小詞彙量與大詞彙量以及無限詞彙量的語音識別。但無論哪種語音識別系統,其基本原理和處理方法大體相同。語音識別原理語音信號輸入之後,預處理和數字化是進行語音識別的前提條件。其中,預處理主要是進行預濾波,保留正常人的300~3400Hz的語音信號;數字化是要進行A/D轉換及抗混疊等處理;特徵提取是進行語音信號訓練和識別必不可少的步驟。能夠體現語音信號特徵的參數包括:(1)基於LPC的倒譜參數;(2)Mel系數的倒譜參數;(3)採用前沿數字信號處理技術的特徵分析手段,如小波分析、時/頻域分析、人工神經網路等。本文採用基於LPC的倒譜參數表示方法,提取出的特徵值存入參考模式庫中,用來匹配待識別語音信號的特徵值。匹配計算是進行語音識別的核心部分,由待識別人的語音經過特徵提取後,與系統訓練時產生的模板進行匹配,在說話人辨認中,取與待識別語音相似度最大的模型所對應的語音作為識別結果,這就是語音識別的整個過程。語音識別技術從應用類分為特定人語音識別和非特定人語音識別。特定人語音識別技術是針對指定人的語音識別,其他人的話玩具不識別,應用模式是使用前需要指定人的語音訓練過程,一般按照玩具提示訓練2遍語音詞條,然後就可以使用了;非特定人語音識別是不用針對指定的人的識別技術,不分年齡,性別,只要說相同語言就可以,應用模式是在產品定型前按照確定的十幾個語音交互詞條,採集200人左右的聲音樣本,經過我們的PC演算法處理得到交互詞條的語音模型和特徵資料庫,然後燒錄到我們的晶元上,應用我們晶元的玩具就具有交互的功能了。非特定人語音識別應用有的是基於音素的演算法,這種模式下不需要採集很多人的聲音樣本,就可以做交互識別,但是缺點是識別率不高,識別性能不穩定。在PC領域,Microsoft的Word軟體就有語音識別技術

G. 簡述語音識別原理。

語音識別的基本過程 根據實際中的應用不同,語音識別系統可以分為:特定人與非特定人的識別、獨立詞與連續詞的識別、小詞彙量與大詞彙量以及無限詞彙量的識別。但無論那種語音識別系統,其基本原理和處理方法都大體類似。
語音識別過程主要包括語音信號的預處理、特徵提取、模式匹配幾個部分。預處理包括預濾波、采樣和量化、加窗、端點檢測、預加重等過程。語音信號識別最重要的一環就是特徵參數提取。提取的特徵參數必須滿足以下的要求:

(1)提取的特徵參數能有效地代表語音特徵,具有很好的區分性; (2)各階參數之間有良好的獨立性;

(3)特徵參數要計算方便,最好有高效的演算法,以保證語音識別的實時實現。

在訓練階段,將特徵參數進行一定的處理後,為每個詞條建立一個模型,保存為模板庫。在識別階段,語音信號經過相同的通道得到語音特徵參數,生成測試模板,與參考模板進行匹配,將匹配分數最高的參考模板作為識別結果。同時,還可以在很多先驗知識的幫助下,提高識別的准確率。

H. 聲音識別系統是根據什麼原理製成的

當然是根據發音原理製成的!音色、音調然後聲音模擬信號轉換成數字信號,設備只是起個轉換和對比的作用而已

I. 手機語音識別並且轉化為文字的技術原理是什麼,請簡單說下

不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內一些獨立做語音辨認的比方訊飛、Rokid,在原理在實質上沒有幾差別:就是語音輸入後,停止特徵提取,將提取的特徵值放進模型庫里,再不時地停止鍛煉和匹配,最終解碼得到結果。

假如要細說的話就比擬復雜了,比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據不同品種的言語,對詞串停止統計建模,目前普遍採用的是基於(n-1)階馬爾可夫鏈統計的n元語法模型。
這里細致說下聲學建模吧。首先經過前端特徵提取取得聲學特徵,再進一步對聲學特徵停止統計建模。建模運用到的貝葉斯統計建模框架,也就是最大後驗概率決策原則。這里演算法這種深奧的東西就不說了,除非深度開發,否則直接套用就行了,我本人也是博古通今,還是念書的時分學的。
說說提取聲學特徵該如何完成:當語音輸入之後,首先停止模電轉換,將模仿信號轉變為數字信號,再停止靜音切除去掉無關噪音,然後停止分幀。將此時的信號分紅一幀一幀之後(每一幀並不是獨立存在的而是相互關聯的),還要停止一系列的信號處置,包括預加重、加窗之後,再停止FFT變換之後,再經過Mel參數的濾波和取對數、離散餘弦變換等一系列演算法處置後,能夠停止用梅爾頻率倒譜系數(MFCC)停止特徵提取,得到聲學特徵。
覺得越說越復雜了……後面簡單點說吧。前面說了言語模型,而聲學模型就是將聲學特徵統計建模後得到的。得到了模型庫之後就能夠停止模型鍛煉和形式匹配了。
所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個最具特徵的模型參數。而形式匹配則相反,是依據一定原則,將未知語音形式與模型庫中的某一個模型取得最佳匹配。
最後的解碼過程又能夠分紅動態解碼網路和靜態解碼網路兩種:動態網路會編譯一個狀態網路並構成搜索空間,把單詞轉換成一個個的音素後將其依照語序拆分紅狀態序列,再依據音素上下文分歧性准繩將狀態序列停止銜接。

而靜態網路普通是針對一些特殊詞(孤立詞)的辨認網路,它的構造就簡單多了:先將每條特殊詞擴展成HMM狀態序列,然後再計算得分,選擇得分最大的作為辨認輸出結果。由於靜態網路是依據聲學概率計算權重,不需求查詢言語模型概率,因而解碼速度很快。
這樣的一個流程大致上就是語音辨認技術的主要原理。
最後再說點題外話吧,語音辨認技術其實應用以及很普遍了,比方在北美很多企業的電話自動效勞都會用到,只需用戶直接說出想要的命令,就能夠自動查詢到需求的效勞,不需求像過去那樣按鍵。手機應用里運用語音辨認技術比方微信的聲音鎖,訊飛、搜狗語音輸入等等很多就不說了,而個人最看好的是聲控語音撥號系統、家用機器人、智能家電等范疇,以語音交流的方式取代過去的傳統人機互動。國內在這個范疇的語音辨認嘗試也是相當多的,比方Rokid這樣能夠語音辨認命令還具有深度學習才能的家用機器人,能夠自動播放視頻、音樂,以至以後能夠語音對話機器人叫個餓了么外賣,叫個滴滴出行等等。我今年夏天去參觀過他們的語音辨認開發部門,他們用的是本人獨立開發的一套流程在跑,整個語音模型庫也是依據中國人發音習氣(連讀、口音)做的。當時測試的產品辨認度挺冷艷的,有種真正在人機交互的覺得,等於經過這個機器人接入口來控制其他電子產品,令人耳目一新。

J. 如何解釋語音識別的技術原理

語音識別,是人工智慧的重要入口,越來越火。從京東科大訊飛合作的叮咚,亞馬遜的明星產品Echo,到最近一個月谷歌Master和網路小度掀起的人機大戰,賺夠了眼球。但語音只是個入口,內容或者說引導用戶做決策乃至消費,才是王道。.語音識別系統,分訓練和解碼兩階段。訓練,即通過大量標注的語音數據訓練聲學模型,包括GMM-HMM、DNN-HMM和RNN+CTC等;解碼,即通過聲學模型和語言模型將訓練集外的語音數據識別成文字。目前常用的開源工具有HTK Speech Recognition Toolkit,Kaldi ASR以及基於Tensorflow(speech-to-text-wavenet)實現端到端系統。我以古老而又經典的HTK為例,來闡述語音識別領域涉及到的概念及其原理。HTK提供了豐富的語音數據處理,以及訓練和解碼的工具。語音識別,分為孤立詞和連續詞語音識別系統。早期,1952年貝爾實驗室和1962年IBM實現的都是孤立詞(特定人的數字及個別英文單詞)識別系統。連續詞識別,因為不同人在不同的場景下會有不同的語氣和停頓,很難確定詞邊界,切分的幀數也未必相同;而且識別結果,需要語言模型來進行打分後處理,得到合乎邏輯的結果。

閱讀全文

與語音識別演算法原理不完全歸納相關的資料

熱點內容
python微信公眾號開發平台 瀏覽:893
知識付費網站java源碼 瀏覽:255
方舟怎麼做命令管理 瀏覽:847
linux流量異常 瀏覽:673
單片機如何給電腦加密碼 瀏覽:517
如何刪掉多餘的伺服器 瀏覽:220
c編程演算法 瀏覽:833
堵車如何緩解壓力 瀏覽:17
喜鵲快貸app怎麼了 瀏覽:263
海龜編輯器積木編程怎麼安裝 瀏覽:185
程序員理發店生意怎麼樣 瀏覽:603
程序員羅技 瀏覽:180
軟考初級程序員課程2021下載 瀏覽:491
杭州程序員奶奶 瀏覽:880
不聽命令造成錯誤 瀏覽:981
kool系統源碼 瀏覽:610
流氓app在哪裡看 瀏覽:98
域名購買了怎麼指向伺服器 瀏覽:121
安卓手機如何讓照片顏色反轉 瀏覽:859
怎麼下載卓睿安手機版 瀏覽:514