深度学习第50讲语音识别综述从概念到技术

来源：语言识别时间：2022/5/17

在上一节中，笔者对语音识别系统的概述、信号处理和特征提取方法以及基于传统GMM和HMM的声学模型进行了简单的综述，详情可戳：

深度学习第49讲：语音识别综述——从概念到技术（上）

本节，笔者继续对语音识别的剩余两个部分进行简单综述，以期对整个语音识别技术系统有一个相对全面的了解。本节我们要做综述的是基于深度学习的声学模型和端到端的语音识别系统。

4.基于深度学习的声学模型

一提到神经网络和深度学习在语音识别领域的应用，可能我们的反应就是循环神经网络RNN模型以及长短期记忆网络LSTM等等。实际上，在语音识别发展的前期，就有很多将神经网络应用于语音识别和声学模型的应用了。

最早用于声学建模的神经网络就是最普通的深度神经网络（DNN），GMM等传统的声学模型存在音频信号表征的低效问题，但DNN可以在一定程度上解决这种低效表征。但在实际建模时，由于音频信号是时序连续信号，DNN则是需要固定大小的输入，所以早期使用DNN来搭建声学模型时需要一种能够处理语音信号长度变化的方法。一种将HMM模型与DNN模型结合起来的DNN-HMM混合系统颇具有效性。

在上图这个框架中，HMM用来描述语音信号的动态变化，DNN则是用来估计观察特征的概率。在给定声学观察特征的条件下，我们可以用DNN的每个输出节点来估计HMM某个状态的后验概率。由于DNN-HMM训练成本不高而且相对较高的识别概率，所以即使是到现在在语音识别领域仍然是较为常用的声学模型。

除了DNN之外，经常用于计算机视觉的CNN也可以拿来构建语音声学模型。当然，CNN也是经常会与其他模型结合使用。CNN用于声学模型方面主要包括TDNN、CNN-DNN框架、DFCNN、CNN-LSTM-DNN（CLDNN）框架、CNN-DNN-LSTM（CDL）框架、逐层语境扩展和注意CNN框架（LACE）等等。这么多基于CNN的混合模型框架都在声学模型上取得了很多成果，这里笔者仅挑两个进行简单阐述。

TDNN是最早基于CNN的语音识别方法，TDNN会沿频率轴和时间轴同时进行卷积，因此能够利用可变长度的语境信息。TDNN用于语音识别分为两种情况，种情况下：只有TDNN，很难用于大词汇量连续性语音识别（LVCSR），原因在于可变长度的表述（utterance）与可变长度的语境信息是两回事，在LVCSR中需要处理可变长度表述问题，而TDNN只能处理可变长度语境信息；第二种情况：TDNN-HMM混合模型，由于HMM能够处理可变长度表述问题，因而该模型能够有效地处理LVCSR问题。

DFCNN的全称叫做全序列卷积神经网络（deepfullyconvolutionalneuralnetwork），是由国内语音识别领域的翘楚科大讯飞于年提出的一种语音识别框架。DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图，DFCNN直接将一句语音转化成一张图像作为输入，输出单元则直接与最终的识别结果（比如音节或者汉字）相对应。DFCNN的结构中把时间和频率作为图像的两个维度，通过较多的卷积层和池化（pooling）层的组合，实现对整句语音的建模。DFCNN的原理是把语谱图看作带有特定模式的图像，而有经验的语音学专家能够从中看出里面说的内容。

就是循环神经网络RNN，其中更多是LSTM网络。音频信号具有明显的协同发音现象，因此必须考虑长时相关性。由于循环神经网络RNN具有更强的长时建模能力，使得RNN也逐渐替代DNN和CNN成为语音识别主流的建模方案。比如说常见的基于seq2seq的编码-解码框架就是一种基于RNN的模型。关于RNN在语音识别和声学模型中的应用笔者不做过多解释，后续有应用性的推文再做详细介绍。

长期的研究和实践证明：基于深度学习的声学模型要比传统的基于浅层模型的声学模型更适合语音处理任务。语音识别的应用环境常常比较复杂，选择能够应对各种情况的模型建模声学模型是工业界及学术界常用的建模方式。但单一模型都有局限性。HMM能够处理可变长度的表述，CNN能够处理可变声道，RNN/CNN能够处理可变语境信息。声学模型建模中，混合模型由于能够结合各个模型的优势，是目前乃至今后一段时间内声学建模的主流方式。

5.端到端的语音识别系统

无论是GMM和HMM这样的传统声学模型，还是基于深度学习的声学模型，它们对于整个语音识别系统都是分开优化的，但是语音识别本质上是一个序列识别问题，如果模型中的所有组件都能够联合优化，很可能会获取更好的识别准确度，所以我们需要一种端到端（End2End）的语音识别处理系统。

传统的语音识别系统中的声学模型训练：

传统的语音识别系统中的语言模型训练：

谷歌的Listen-Attend-Spell(LAS)端到端语音识别系统：

关于端到端的语音识别系统，笔者做的调研程度有限，更多的内容需要后续不断的学习和实践，关于这篇语音识别的综述暂时写到这里。

参考资料：

SupervisedSequenceLabellingwithRecurrent

俞栋邓力解析深度学习语音识别实践

转载请注明：http://www.0431gb208.com/sjszjzl/330.html

上一篇文章：机器人电话销售对销售有用吗语音识别自动

下一篇文章：基于词对关系抽取的统一命名实体识别系统