语音识别算法_语音识别算法有哪些

㈠语音识别技术的基本方法

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：
第一步，分段和标号
把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步，得到词序列
根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。
核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。
在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

㈡语音识别的原理是什么

语音识别的原理可以从两方面理解，分别是数据库、算法与自学习。

1、数据库，其实语音识别的原理是非常好理解的，它是和指纹识别定位原理一样的，设备会把目标语音收集起来，接着对这些收集来的语音实施处理，然后会得到目标语音的一些信息，下面就会把这些特征信息和数据库中已经存在的数据进行相似度的搜索对比，当评分最高的信息出现，那就是识别结果，会经由其他系统的接入把没有完成的设备语音识别功能。
在实际的操作中，语音识别是非常复杂的，毕竟语音本身就较为复杂，它和指纹识别最大的区别就是，指纹识别只需要把指纹录入然后由数据库进行对比识别，可是语音识别就不能如此简单。
由于语音的复杂性，所以语音的数据库是非常庞大的，并且这种数据库还不能放到移动端，这也是使用手机语音助手就必须要进行联网的最大原因。语音识别自出现以来发展到现在，也是有出现过可以离线使用的，但是经过实际的使用后发现，离线版的无法保证准确率，一个可能会出错的识别功能自然无法使用。
2、算法和自学习，语音识别会对收集到的目标进行预处理，其中包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等，总之是非常复杂的，所以之后对于需要处理的语言都会进行特征的提取。
声音是具有震动性的，主要的形状为波形，语言识别也就是对这种波形进行分帧，多个帧构成一个状态，三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集，汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调音调。然后经由音素系统吧这些合成单词或者是汉字，下面经过相应的算法处理即可。
自学习系统主要是针对数据库的，吧语言变为文字的语言识别系统必须拥有两个数据库，一个用来提取声音进行匹配，一个是能够与之匹配的文本语言数据库。这两个数据库都需要提前对数据机型进行训练分析，简单地理解为自学习系统。

㈢语音识别的准确率可以达到100%吗有何依据

如今这个时代，在中国几乎是人人手上都有一部智能手机，这种小巧的电子产品正在潜移默化地改变人们的生活方式和工作方式。作为智能手机的典型特征之一，语音识别是必不可少的。这是一项在人与机器之前搭起沟通桥梁的技术，没有了它我们便无法通过手机将语音转成文字，也无法通过语音与智能语音助手对话。

当然我们不能忽略了机器学习的特点，那就是通过大量训练来将自己的能力趋于完善，目前各大公司都在进行大量的语音识别训练，可以预见的是准确率会越来越高。

㈣语音识别算法有哪些

DTW 特定人识别
HMM 非特定人识别
GMM
神经网络

㈤图像识别比语音识别算法的复杂度高多少倍

图象识别容易，因为图象可以在一个时间点成像。而语音没有可能在一个时间点的采样有用，语音多出来一个时间轴。而这个时间轴引入的难题就是：换个时间，换个人，换个背景噪音，都变得没法子识别了。目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：图像识别比语音识别算法的复杂度高多少倍

㈥求语音识别解决方案。

用IBM滴好，支持系统全局语音化

IBM ViaVoice

㈦国内那几家语音识别技术做的比较好

NRK10语音识别芯片为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片，具有语音识别及播报功能，需要外挂 SPI-Flash，存储词条或者语音播内容。他具有识别率高，工业级性能、简单易用，更新词条方便等优势。广泛应用在智能家居、AI人工智能、玩具等多种领域

㈧国产语音识别算法取得了重大突破吗

据报道，近日中国人工智能产业发展联盟组建成立，联盟将快速推动人工智能技术在生产制造、健康医疗、生活服务、城市治理等场景的应用，据了解目前国产语音识别算法已经取得了重大突破。

数据显示，2016年中国数据总量占全球数据总量的14%。据预测，到2020年，中国的数据总量将占全球数据总量的20%，届时中国将成为世界第一数据资源大国和全球的数据中心，此外，许多传统行业的数据积累在规范程度和流转效率上还远未达到可充分发挥人工智能技术潜能的程度。

中国的大技术公司通过它们专有的平台收集数据，但中国在创建数据友好的生态系统方面落后于美国，缺少统一的标准和跨平台的共享。从世界有关国家看，开放政府数据有助于私营部门的创新，但中国公共部门开放的数据相对较少。

希望中国人工智能技术可以早日实现弯道超车！

㈨谁知道语音识别这方面的知识！！！

高性能汉语数码语音识别算法

李虎生刘加刘润生

摘要：提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数，同时提取共振峰轨迹和鼻音特征以区分一些易混语音对，并提出一个基于语音特征的实时端点检测算法，以减少系统资源需求，提高抗干扰能力。采用了两级识别框架来提高语音的区分能力，其中第一级识别用于确定识别候选结果，第二级识别用于区分易混语音对。由于采用了以上改进， MDSR系统识别率达到了98.8%.
关键词：汉语; 数码语音识别
分类号：TN 912.34 文献标识码：A
文章编号：1000-0054(2000)01-0032-03

High performance digit mandarin
speech recognition

LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)

Abstract：High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words：mandarin；digit speech recognition▲

汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支，它的任务是识别“0”到“9”等10个非特定人汉语数码语音，在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比， MDSR的性能尚未达到成熟应用水平，这是因为 1) 汉语数码语音的混淆程度较高； 2) 汉语是一个多方言语种，说话人会带有或多或少的地方口音； 3) 在许多应用背景中，MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现，这为MDSR算法的设计带来了很大的限制。由于以上原因，MDSR是一项相当困难的任务。
针对汉语数码语音识别提出了一系列高性能的算法，使MDSR识别率达到了98.8%。由这些算法构成的识别系统框图如图1所示。
MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。

图1 MDSR系统框图

1 语音前端处理

语音前端处理包括语音特征提取和端点检测两部分。

1.1 语音特征提取
1.1.1 基本识别参数
目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明，采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。

1.1.2 共振峰轨迹
在MDSR中，易混淆语音“2”和“8”可以由其第2，3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一，并选用峰值选取算法来提取共振峰轨迹〔3〕。

1.1.3 鼻音特征参数
汉语数码语音中，“0”的元音具有鼻音的特征，而“0”容易与具有非鼻化元音的“6”混淆，因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕：
1) 鼻音在频谱低端(约0.25kHz左右)有1个较强的共振峰。
2) 鼻音在中频段(约0.8～2.3kHz)的能量分布较为均匀，没有明显的峰或谷。
采用以下2个参数表征鼻音的特征：
1) 低频能量比：

(1)

其中fn为鼻音低频共振峰频率， B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量，〔f1，f2〕则为语音“6”能量集中的频带。
2) 频谱质心：

(2)

其中〔fL,fH〕为0.8～2.3kHz的中频段。由于MDSR系统采用的基本识别参数为MFCC参数，其计算过程中需要作FFT，所以低频能量比和频谱质心两个参数可以顺带算出，不会影响特征提取的实时完成。

1.2 端点检测
本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED)，充分利用汉语数码语音的特点，在实时提取特征参数后完成端点检测，检测到的端点只精确到帧的量级。
根据语音学知识〔4〕， MDSR中各类语音的频谱特点如表1

表1 汉语数码语音频谱特点

频谱特征
浊音元音低频(0.1至0.4kHz间)能量较高；中频(0.64至2.8kHz)能量较高
浊辅音低频(0.1至0.4kHz间)能量较高；中频(0.64至2.8kHz)能量较低
清辅音高频(3.5kHz以上)能量较高

采用3个频谱能量分布参数｛R1，R2，R3｝分别反应频谱高频、低频和中频的分布特征。其定义如下：
(3)
(4)

其中： i表示第i帧， N为语音帧长，也即FFT点数， Fk为对语音帧作FFT后各频率点能量， T为语音的总帧数，式(3)，(4) 中求和号的上下限由表1中相应频率范围确定，当N为256，采样频率为实验所用语音库的11kHz时， f0＝81， f1＝9， f2 ＝2， f3＝65， f4＝15.由于进行了能量归一化，所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT，因此频谱能量分布参数可以顺带算出。此外，用于端点检测的参数还包括短时能量参数E0(i)〔5〕.
由以上参数， FRED算法过程为：
1) 根据采入信号首尾两帧确定能量阈值；
2) 根据参数R2确定语音浊音段；
3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧；
4) 根据参数R3确定元音段。
FRED算法的特点是：
1) 利用了语音的本质特征进行端点检测，能够很好地适应环境的变化和干扰，实验证明FRED算法可以有效地提高识别率； 2) 将语音端点定在帧的量级上，保证了特征参数在采样时实时提取，节省了系统运行时间，大大减少了系统所需的存储量； 3) 能够准确地确定语音的元音段，从而将辅音与元音分割开，有利于对语音局部特征的辨识。

2 识别算法

实验表明， MDSR的识别错误集中在少数几对易混语音中〔1〕，因此本文采用了两极识别框架，即第一级完成对识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。

2.1 第一级识别
在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕，用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。
由于HMM是一个有人为假设的模型，所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布，即

P(Li=n)=anii(1-aii)， (5)

其中： Li为状态i的持续时间， aii为状态i跳转回自身的概率。按照式(5)，状态持续时间越长，其概率越小，这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕，即

(6)

其中αi和βi为Γ分布的参数， Fi为归一化因子参数，以上各参数在训练时由训练语音样本估计出。在识别时，用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正：

(7)

其中： λ为加权系数， S为状态数。识别结果则由修正后的概率P�′r获得。实验证明，用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。

2.2 第二级识别
对第一级识别的错误作分析，我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%，所以如果能够在第二级识别中对这几对语音作进一步的辩识，整个MDSR系统的性能会有很大的提高。

表2 易混语音错误百分比及其区分特征

易混语音占识别错误百分比/% 区分特征
“2”“8” 45 共振峰轨迹变化趋势
“1”“9” 12 不同的辅音
“1”“6” 11 不同的辅音
“0”“6” 11 鼻音特征的有无
“3”“4” 8 不同的元音
“6”“9” 4 辅音的清浊性

由表2可见，易混语音“2”“8”， “0”“6”， “6”“9”可以用表征其区分特征的参数，根据一定的规则进行判决，而“1”“9”， “1”“6”， “3”“4”则可以利用端点检测中元、辅音分割的结果，训练元音部分和辅音部分的HMM参数，在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。
表3 第二级识别方法

易混语音第二级识别方法规则判决的特征参数或
局部HMM的辨识部位
“2”“8” 规则判决共振峰轨迹
“1”“9” 局部HMM辨识辅音
“1”“6” 局部HMM辨识辅音
“0”“6” 规则判决鼻音特征
“3”“4” 局部HMM辨识元音
“6”“9” 规则判决频谱分布参数R1

3 实验结果

实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能，库中语音采样率为11kHz，量化精度为16bit线性量化，录音背景为普通办公室环境。
首先测试了特征参数采用LPCC参数，端点检测采用快速端点检测算法〔6〕，只用Viterbi算法进行一级识别时的基本结果，然后测试了逐个加入本文所提出的各种方法后的识别率，结果如表4。可见，所采用的每一种方法都使系统性能较之于基本系统有了显着的提高，最后达到98.8%的识别率。

表4 算法性能比较

采用的算法识别率/%
基本结果 91.1
采用MFCC参数 92.9
FRED算法 95.4
状态持续时间分布 96.0
第二级识别 98.8

4 结论
采用了一系列算法，有效地提高了MDSR系统的识别率，实现了一个高性能的MDSR系统，其特点为：
1) 采用了两极识别框架，增强了对易混语音的区分能力。
2) 充分利用针对汉语数码语音的语音学知识，提高了端点检测的抗干扰能力，提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征，进一步提高了系统识别率。
3) 各算法所需的运算量和存储量都较小，有利于MDSR在DSP系统上的实现。■

基金项目：国家自然科学基金项目(69772020)和国家“八六三”高技术项目(863-512-9805-10)
作者简介：李虎生 (1975-)，男(汉)，四川，硕士研究生
作者单位：李虎生(清华大学，电子工程系，北京，100084)
刘加(清华大学，电子工程系，北京，100084)
刘润生(清华大学，电子工程系，北京，100084)

参考文献：

〔1〕顾良，刘润生. 汉语数码语音识别：困难分析与方法比较〔J〕. 电路与系统学报， 1997， 2 (4)： 32－39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition： state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4)： 32－39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4)： 357－366.
〔3〕李虎生，杨明杰，刘润生. 用共振峰轨迹提高汉语数码语音识别性能〔J〕. 清华大学学报， 1999， 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9)： 69－71. (in Chinese)
〔4〕吴宗济，林茂灿. 实验语音学教程〔M〕. 北京：高等教育出版社， 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing： Higher Ecation Press, 1989. (in Chinese)
〔5〕杨行峻，迟惠生. 语音信号数字处理〔M〕. 北京：电子工业出版社， 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing： Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计〔D〕. 北京：清华大学， 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing： Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM

导航:首页 > 源码编译 > 语音识别算法

语音识别算法

与语音识别算法相关的资料