毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

论文解读对端到端语音识别网络的两种全新探

来源:语言识别 时间:2023/11/24
雷锋网AI科技评论按:语音识别技术历史悠久,早在上世纪50年代,贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪70年代起,传统的基于统计的HMM声学模型,N元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始,GMM-HMM模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近5-10年间,随着深度学习的快速发展,算力的快速增长,数据量的急速扩张,深度学习开始大规模应用于语音识别领域并取得突破性进展,深度模型已经可以在干净标准的独白类音频上达到5%以下的错词率。此外,端到端的模型可以轻松的将各种语言揉合在一个模型中,不需要做额外的音素词典的准备,这将大大推动业界技术研究与应用落地的进度。在现在主流的利用深度学习的语音识别模型中仍在存在多种派系,一种是利用深度学习模型取代原来的GMM部分,即DNN-HMM类的模型,另一种则是端到端的深度学习模型。第一种模型需要先实现HMM结构与语音的对齐,然后才能进一步地训练深度神经网络。除此之外,在训练这一类的模型时,训练样本的标注不仅仅是原本的文本,还需要对文本进一步拆解成为音素投入训练,这对于标注部分的工作就会造成极大的挑战。在解码的时候,这种模型同样还需要依赖这个发音词典。端到端的模型旨在一步直接实现语音的输入与解码识别,从而不需要繁杂的对齐工作与发音词典制作工作,具有了可以节省大量的前期准备时间的优势,真正的做到数据拿来就可用。端到端的模型的另一个优点是,更换识别语言体系时可以利用相同的框架结构直接训练。例如同样的网络结构可以训练包含26个字符的英文模型,也可以训练包含个常用汉字的中文模型,甚至可以将中英文的词典直接合在一起,训练一个混合模型。此外,最重要的一点是,端到端的模型在预测时的速度更快,对于一个10秒左右的音频文件,端到端的模型在一块GPU的服务器上仅需0.2秒左右的时间便可给出预测结果。现在的语音识别问题有如下几个难点:对自然语言的识别和理解;语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,一个说话人在随意说话和认真说话时的语音信息是不同的;语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的;单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。端到端的模型由于不引入传统的音素或词的概念,直接训练音频到文本的模型,可以有效地规避上述难点。云从科技基于端到端的语音识别网络进行了两种方法的探索,一种是基于原有的CNN-RNN-CTC网络的改进,一种是基于CTCloss与attentionloss结合机制的网络。下面是对这两种方法的详细解读。第一种方法

转载请注明:http://www.0431gb208.com/sjszlff/6480.html

  • 上一篇文章:
  • 下一篇文章: 没有了