㈠ 語音識別技術的基本方法
一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。
㈡ 語音識別的原理是什麼
語音識別的原理可以從兩方面理解,分別是資料庫、演算法與自學習。
1、資料庫,其實語音識別的原理是非常好理解的,它是和指紋識別定位原理一樣的,設備會把目標語音收集起來,接著對這些收集來的語音實施處理,然後會得到目標語音的一些信息,下面就會把這些特徵信息和資料庫中已經存在的數據進行相似度的搜索對比,當評分最高的信息出現,那就是識別結果,會經由其他系統的接入把沒有完成的設備語音識別功能。
在實際的操作中,語音識別是非常復雜的,畢竟語音本身就較為復雜,它和指紋識別最大的區別就是,指紋識別只需要把指紋錄入然後由資料庫進行對比識別,可是語音識別就不能如此簡單。
由於語音的復雜性,所以語音的資料庫是非常龐大的,並且這種資料庫還不能放到移動端,這也是使用手機語音助手就必須要進行聯網的最大原因。語音識別自出現以來發展到現在,也是有出現過可以離線使用的,但是經過實際的使用後發現,離線版的無法保證准確率,一個可能會出錯的識別功能自然無法使用。
2、演算法和自學習,語音識別會對收集到的目標進行預處理,其中包括語音信號采樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的雜訊影響等等,總之是非常復雜的,所以之後對於需要處理的語言都會進行特徵的提取。
聲音是具有震動性的,主要的形狀為波形,語言識別也就是對這種波形進行分幀,多個幀構成一個狀態,三個狀態構成一個音素。英語常用音素集是卡內基梅隆大學的一套由39個音素構成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調音調。然後經由音素系統吧這些合成單詞或者是漢字,下面經過相應的演算法處理即可。
自學習系統主要是針對資料庫的,吧語言變為文字的語言識別系統必須擁有兩個資料庫,一個用來提取聲音進行匹配,一個是能夠與之匹配的文本語言資料庫。這兩個資料庫都需要提前對數據機型進行訓練分析,簡單地理解為自學習系統。
㈢ 語音識別的准確率可以達到100%嗎有何依據
如今這個時代,在中國幾乎是人人手上都有一部智能手機,這種小巧的電子產品正在潛移默化地改變人們的生活方式和工作方式。作為智能手機的典型特徵之一,語音識別是必不可少的。這是一項在人與機器之前搭起溝通橋梁的技術,沒有了它我們便無法通過手機將語音轉成文字,也無法通過語音與智能語音助手對話。
當然我們不能忽略了機器學習的特點,那就是通過大量訓練來將自己的能力趨於完善,目前各大公司都在進行大量的語音識別訓練,可以預見的是准確率會越來越高。
㈣ 語音識別演算法有哪些
DTW 特定人識別
HMM 非特定人識別
GMM
神經網路
㈤ 圖像識別比語音識別演算法的復雜度高多少倍
圖象識別容易,因為圖象可以在一個時間點成像。而語音沒有可能在一個時間點的采樣有用,語音多出來一個時間軸。 而這個時間軸引入的難題就是:換個時間,換個人,換個背景噪音,都變得沒法子識別了。目前,主流的大詞彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模塊所構成信號處理及特徵提取模塊。該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環境雜訊、信道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模塊之間的關系。首先,統計語音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符號串使得:圖像識別比語音識別演算法的復雜度高多少倍
㈥ 求語音識別解決方案。
用IBM滴好,支持系統全局語音化
IBM ViaVoice
㈦ 國內那幾家語音識別技術做的比較好
NRK10語音識別晶元為廣州九芯電子自主研發的一款高性能、低成本的離線語音識別晶元,具有語音識別及播報功能,需要外掛 SPI-Flash,存儲詞條或者語音播內容。他具有識別率高,工業級性能、簡單易用,更新詞條方便等優勢。廣泛應用在智能家居、AI人工智慧、玩具等多種領域
㈧ 國產語音識別演算法取得了重大突破嗎
據報道,近日中國人工智慧產業發展聯盟組建成立,聯盟將快速推動人工智慧技術在生產製造、健康醫療、生活服務、城市治理等場景的應用,據了解目前國產語音識別演算法已經取得了重大突破。
數據顯示,2016年中國數據總量佔全球數據總量的14%。據預測,到2020年,中國的數據總量將佔全球數據總量的20%,屆時中國將成為世界第一數據資源大國和全球的數據中心,此外,許多傳統行業的數據積累在規范程度和流轉效率上還遠未達到可充分發揮人工智慧技術潛能的程度。
中國的大技術公司通過它們專有的平台收集數據,但中國在創建數據友好的生態系統方面落後於美國,缺少統一的標准和跨平台的共享。從世界有關國家看,開放政府數據有助於私營部門的創新,但中國公共部門開放的數據相對較少。
希望中國人工智慧技術可以早日實現彎道超車!
㈨ 誰知道語音識別這方面的知識!!!
高性能漢語數碼語音識別演算法
李虎生 劉加 劉潤生
摘 要: 提出了一個高性能的漢語數碼語音識別(MDSR)系統。 MDSR系統使用Mel頻標倒譜系數(MFCC)作為主要的語音特徵參數,同時提取共振峰軌跡和鼻音特徵以區分一些易混語音對,並提出一個基於語音特徵的實時端點檢測演算法,以減少系統資源需求,提高抗干擾能力。採用了兩級識別框架來提高語音的區分能力,其中第一級識別用於確定識別候選結果,第二級識別用於區分易混語音對。由於採用了以上改進, MDSR系統識別率達到了98.8%.
關鍵詞:漢語; 數碼語音識別
分類號:TN 912.34 文獻標識碼:A
文章編號:1000-0054(2000)01-0032-03
High performance digit mandarin
speech recognition
LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)
Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲
漢語數碼語音識別 (mandarin digit speech recognition, MDSR) 是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別「0」到「9」等10個非特定人漢語數碼語音,在電話語音撥號、工業監控、家電遙控等領域有著極大的應用價值〔1〕。但與英語數碼語音識別相比, MDSR的性能尚未達到成熟應用水平,這是因為 1) 漢語數碼語音的混淆程度較高; 2) 漢語是一個多方言語種,說話人會帶有或多或少的地方口音; 3) 在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digital signal processor, DSP)系統上實現,這為MDSR演算法的設計帶來了很大的限制。由於以上原因,MDSR是一項相當困難的任務。
針對漢語數碼語音識別提出了一系列高性能的演算法,使MDSR識別率達到了98.8%。由這些演算法構成的識別系統框圖如圖1所示。
MDSR系統〔1〕提取的語音特徵參數包括用於識別的參數和用於端點檢測的參數。
圖1 MDSR系統框圖
1 語音前端處理
語音前端處理包括語音特徵提取和端點檢測兩部分。
1.1 語音特徵提取
1.1.1 基本識別參數
目前常用的語音識別參數有基於線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基於Mel頻標的倒譜系數(MFCC)〔2〕。實驗證明,採用MFCC參數時系統識別率高於採用LPCC參數。因此本文的基本識別參數採用MFCC參數及一階差分MFCC參數。
1.1.2 共振峰軌跡
在MDSR中,易混淆語音「2」和「8」可以由其第2,3共振峰的變化趨勢區分開〔3〕。因此可將共振峰軌跡作為識別參數之一,並選用峰值選取演算法來提取共振峰軌跡〔3〕。
1.1.3 鼻音特徵參數
漢語數碼語音中,「0」的母音具有鼻音的特徵,而「0」容易與具有非鼻化母音的「6」混淆,因此鼻音特徵可用於提高「0」的識別率。鼻音的特徵包括〔4〕:
1) 鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。
2) 鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。
採用以下2個參數表徵鼻音的特徵:
1) 低頻能量比:
(1)
其中fn為鼻音低頻共振峰頻率, B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)後第k個頻率點的能量, 〔f1,f2〕則為語音「6」能量集中的頻帶。
2) 頻譜質心:
(2)
其中〔fL,fH〕為0.8~2.3kHz的中頻段。由於MDSR系統採用的基本識別參數為MFCC參數,其計算過程中需要作FFT,所以低頻能量比和頻譜質心兩個參數可以順帶算出,不會影響特徵提取的實時完成。
1.2 端點檢測
本文提出了基於語音特徵的實時端點檢測演算法(feature-based real-time endpoint detection, FRED),充分利用漢語數碼語音的特點,在實時提取特徵參數後完成端點檢測,檢測到的端點只精確到幀的量級。
根據語音學知識〔4〕, MDSR中各類語音的頻譜特點如表1
表1 漢語數碼語音頻譜特點
頻 譜 特 征
濁 音 元 音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較高
濁輔音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較低
清輔音 高頻(3.5kHz以上)能量較高
採用3個頻譜能量分布參數{R1,R2,R3}分別反應頻譜高頻、低頻和中頻的分布特徵。其定義如下:
(3)
(4)
其中: i表示第i幀, N為語音幀長,也即FFT點數, Fk為對語音幀作FFT後各頻率點能量, T為語音的總幀數,式(3),(4) 中求和號的上下限由表1中相應頻率范圍確定,當N為256,采樣頻率為實驗所用語音庫的11kHz時, f0=81, f1=9, f2 =2, f3=65, f4=15.由於進行了能量歸一化,所以上述特徵與語音的強度是無關的。由於計算MFCC參數時需要作FFT,因此頻譜能量分布參數可以順帶算出。此外,用於端點檢測的參數還包括短時能量參數E0(i)〔5〕.
由以上參數, FRED演算法過程為:
1) 根據采入信號首尾兩幀確定能量閾值;
2) 根據參數R2確定語音濁音段;
3) 根據參數R1與E0向濁音段兩端擴展式搜索語音起始幀;
4) 根據參數R3確定母音段。
FRED演算法的特點是:
1) 利用了語音的本質特徵進行端點檢測,能夠很好地適應環境的變化和干擾,實驗證明FRED演算法可以有效地提高識別率; 2) 將語音端點定在幀的量級上,保證了特徵參數在采樣時實時提取,節省了系統運行時間,大大減少了系統所需的存儲量; 3) 能夠准確地確定語音的母音段,從而將輔音與母音分割開,有利於對語音局部特徵的辨識。
2 識別演算法
實驗表明, MDSR的識別錯誤集中在少數幾對易混語音中〔1〕,因此本文採用了兩極識別框架,即第一級完成對識別結果的初步確定,第二級完成對易混淆語音的進一步辨識。
2.1 第一級識別
在第一級識別中採用的基本方法為離散隱含Malkov模型(DHMM)演算法〔5〕,用Viterbi演算法〔5〕計算各個數碼語音模型產生采入語音的概率Pr。
由於HMM是一個有人為假設的模型,所以有不可避免的缺陷。其中一個缺陷是在HMM中各狀態的持續時間呈幾何分布,即
P(Li=n)=anii(1-aii), (5)
其中: Li為狀態i的持續時間, aii為狀態i跳轉回自身的概率。按照式(5),狀態持續時間越長,其概率越小,這是不符合實際情況的。用Γ分布來描述狀態持續時間〔5〕,即
(6)
其中αi和βi為Γ分布的參數, Fi為歸一化因子參數,以上各參數在訓練時由訓練語音樣本估計出。在識別時,用Viterbi演算法獲得的最佳狀態路徑中各狀態持續時間的概率對Pr作修正:
(7)
其中: λ為加權系數, S為狀態數。識別結果則由修正後的概率P�′r獲得。實驗證明,用狀態持續時間分布對Pr進行修正所得的識別性能有明顯的提高。
2.2 第二級識別
對第一級識別的錯誤作分析,我們發現大部分錯誤都集中在少數幾對易混語音中。表2列出了識別錯誤最多的6對語音(其中「1」念為〔yao〕)占所有錯誤的百分比及其區分特徵。可見這6對語音占所有錯誤的91%,所以如果能夠在第二級識別中對這幾對語音作進一步的辯識,整個MDSR系統的性能會有很大的提高。
表2 易混語音錯誤百分比及其區分特徵
易混語音 占識別錯誤百分比/% 區分特徵
「2」「8」 45 共振峰軌跡變化趨勢
「1」「9」 12 不同的輔音
「1」「6」 11 不同的輔音
「0」「6」 11 鼻音特徵的有無
「3」「4」 8 不同的母音
「6」「9」 4 輔音的清濁性
由表2可見,易混語音「2」「8」, 「0」「6」, 「6」「9」可以用表徵其區分特徵的參數,根據一定的規則進行判決,而「1」「9」, 「1」「6」, 「3」「4」則可以利用端點檢測中元、輔音分割的結果,訓練母音部分和輔音部分的HMM參數,在識別時針對相應部分再作一次局部HMM識別。表3列出了各對易混語音第二級識別的方法。
表3 第二級識別方法
易混語音 第二級識別方法 規則判決的特徵參數或
局部HMM的辨識部位
「2」「8」 規則判決 共振峰軌跡
「1」「9」 局部HMM辨識 輔音
「1」「6」 局部HMM辨識 輔音
「0」「6」 規則判決 鼻音特徵
「3」「4」 局部HMM辨識 母音
「6」「9」 規則判決 頻譜分布參數R1
3 實驗結果
實驗使用了一個包含160人從「0」到「9」的各一遍發音的語音庫來測試系統的性能,庫中語音采樣率為11kHz,量化精度為16bit線性量化,錄音背景為普通辦公室環境。
首先測試了特徵參數採用LPCC參數,端點檢測採用快速端點檢測演算法〔6〕,只用Viterbi演算法進行一級識別時的基本結果,然後測試了逐個加入本文所提出的各種方法後的識別率,結果如表4。可見,所採用的每一種方法都使系統性能較之於基本系統有了顯著的提高,最後達到98.8%的識別率。
表4 演算法性能比較
採用的演算法 識別率/%
基本結果 91.1
採用MFCC參數 92.9
FRED演算法 95.4
狀態持續時間分布 96.0
第二級識別 98.8
4 結 論
採用了一系列演算法,有效地提高了MDSR系統的識別率,實現了一個高性能的MDSR系統,其特點為:
1) 採用了兩極識別框架,增強了對易混語音的區分能力。
2) 充分利用針對漢語數碼語音的語音學知識,提高了端點檢測的抗干擾能力,提取了用於區分易混語音的共振峰軌跡、鼻音特徵等聲學特徵,進一步提高了系統識別率。
3) 各演算法所需的運算量和存儲量都較小,有利於MDSR在DSP系統上的實現。■
基金項目:國家自然科學基金項目(69772020)和國家「八六三」高技術項目(863-512-9805-10)
作者簡介:李虎生 (1975-), 男(漢), 四川, 碩士研究生
作者單位:李虎生(清華大學,電子工程系,北京,100084)
劉加(清華大學,電子工程系,北京,100084)
劉潤生(清華大學,電子工程系,北京,100084)
參考文獻:
〔1〕顧良, 劉潤生. 漢語數碼語音識別: 困難分析與方法比較 〔J〕. 電路與系統學報, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 楊明傑, 劉潤生. 用共振峰軌跡提高漢語數碼語音識別性能 〔J〕. 清華大學學報, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吳宗濟, 林茂燦. 實驗語音學教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕楊行峻, 遲惠生. 語音信號數字處理 〔M〕. 北京: 電子工業出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顧良. 漢語數碼語音識別方法研究及DSP系統設計 〔D〕. 北京: 清華大學, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM