语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,通俗来讲,就是让机器听懂你说的话。语音识别系统的目的,是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。
传统的语音识别通过一个语言模型、声学模型、发音词典以及解码器组成。语言模型是产生文字的,它可以计算某一段文字出现的概率,是对一组字序列构成的知识表示。声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示。发音词典则能够告诉人们不同字对应的音素,并计算发该语音的概率。最后,解码器将三者结合起来完成语音到文字的转换。
已知一段语音信号,处理成声学特征向量(AcousticFeatureVector,而不是Eigenvector)后表示为X=[x1,x2,x3,...],其中xi表示一帧(Frame)特征向量;可能的文本序列表示为W=[w1,w2,w3,...],其中wi表示一个词,求W?=argmaxwP(WX),而P(W
X)=P(X
W)P(W)/P(X),这便是语音识别的基本出发点。在训练语音集中,大量的语音信号被切分成帧,一帧约为20ms,对应音素时长。通过信号处理的方法将该音素变成特征向量(常用MFCC),从而训练出特征到音素的分类器。最后生成识别模型,语音信号通过识别模型找到最大匹配的文字序列。
特征向量:
一个代表目标特征的较低维向量,比如用“猫”这一个字符代替了真实世界三维的猫咪。
当然这是最基础的语音识别框架,随着深度学习的发展,基于注意力(Attention)机制,端到端语音识别等框架也陆续被提出。从开始分别求取P(XW)和P(W),把很多精力放在声学模型的改进上,到后来基于深度学习和大数据的端对端(End-to-End)方法,它直接计算P(W
X),把声学模型和语言模型融为了一体。
注意力机制(Attention):
注意力机制是人类所特有的大脑信号处理机制。人类听觉通过快速听取全局信息,获得需要重点
转载请注明:http://www.0431gb208.com/sjsbszl/312.html