语音识别技术的相关知识

来源：语言识别时间：2022/7/9

北京主治湿疹医院 http://m.39.net/pf/a_8890895.html
概述

语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

技术原理

语音识别系统构建过程整体上包括两大部分：训练和识别。训练是指对预先收集好的语音进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；识别是对用户实时语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”主要作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等；“后端”作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别，得到其包含的文字信息。此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

应用领域

智能家居：找到合适的语音入口是挖掘智能家居背后用户价值的关键。硬件本身具有入口价值，智能音箱、智能电视、家庭机器人等都有可能成为合适的入口。通过前端语音交互提供入口，后端互联网提供服务的方式完成物联网时代家居场景下的商业模式转换。

智能车载：语音交互在车载场景中存在刚需，也会成为最先爆发的领域。未来，车载设备提供商可以通过补贴用户来抢占汽车内显示屏市场，通过用户用车行为数据的搜集与挖掘，为保险公司和车厂提供信息，保险公司根据数据设立分层级的保费机制，激励规范驾驶行为。这样，信息流和服务流将不断在生态系统中流转，不断挖掘更大价值。

识别方法基于语音学和声学的方法：该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

第一步，分段和标号

把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步，得到词序列

根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

模板匹配的方法：模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

1、动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

2、隐马尔可夫法(HMM)

隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

3、矢量量化(VQ)

矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

神经网络的方法：利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。面临问题就算法模型方面而言

需要有进一步的突破。目前能看出它的一些明显不足，尤其在中文语音识别方面，语言模型还有待完善，因为语言模型和声学模型正是听写识别的基础，这方面没有突破，语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型，还没有用到以语言学为基础的文法模型，而要使计算机确实理解人类的语言，就必须在这一点上取得进展，这是一个相当艰苦的工作。此外，随着硬件资源的不断发展，一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信，半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。

就自适应方面而言

语音识别技术也有待进一步改进。目前，象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练，以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用，大量的训练不仅让用户感到厌烦，而且加大了系统的负担。并且，不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此，必须在自适应方面有进一步的提高，做到不受特定人、口音或者方言的影响，这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的，就声音特征来讲有男音、女音和童音的区别，此外，许多人的发音离标准发音差距甚远，这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征，那可能比提高一二个百分点识别率更重要。事实上，ViaVoice的应用前景也因为这一点打了折扣，只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

就强健性方面而言

语音识别技术需要能排除各种环境因素的影响。目前，对语音识别效果影响最大的就是环境杂音或嗓音，在公共场合，你几乎不可能指望计算机能听懂你的话，来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围，目前，要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行，这对多数用户来说是不现实的。在公共场合中，个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音，如何让语音识别技术也能达成这一点呢？这的确是一个艰巨的任务。

此外，带宽问题也可能影响语音的有效传送，在速率低于比特/秒的极低比特率下，语音编码的研究将大大有别于正常情况，比如要在某些带宽特别窄的信道上传输语音，以及水声通信、地下通信、战略及保密话音通信等，要在这些情况下实现有效的语音识别，就必须处理声音信号的特殊特征，如因为带宽而延迟或减损等。语音识别技术要进一步应用，就必须在强健性方面有大的突破。