viapixabay雷锋网AI科技评论按:本文是由来自谷歌语音团队的科学家TaraN.Sainath和来自谷歌大脑团队的科学家YonghuiWu共同撰写的,文中简单介绍了最新论文《State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels》的主要思想与取得的成果以及Listen-Attend-Spell(LAS)的端到端体系结构。雷锋网AI科技评论根据原文进行了编译。提升语音识别的端到端模型在谷歌各式各样的语音搜索应用中,都是基于传统的自动语音识别(Automaticspeechrecognition,ASR)系统实现的。传统的ASR系统由声学模型(Acousticmodel,AM)、发音模型(Pronunciationmodel,PM)和语言模型(Languagemodel,LM)组成,所有这些系统都是分开单独进行训练的并且通常还针对各自不同的数据集进行了单独的手工设计[1]。声学模型采用了声学特征,用于预测一组子字单元(Subwordunits),它们通常是上下文无关或者上下文相关的音素。然后通过手动设计的词库(也即PM)将由声学模型预测产生的一系列音素映射到对应的单词。最终,由语言模型将概率赋予单词序列。但是对这三个模型分开进行单独训练会增加训练的复杂度,并且独立训练的效果不如将模型联合训练的效果好。在过去的几年里,开发端到端(End-to-end)的系统越来越受到学者们的欢迎,而这些端到端系统试图将这些独立的组件作为一个单一系统进行联合训练。虽然在文献[2,3]中这些端到端模型已经展示出了颇为惊艳的结果,但是这种端到端的方法是否可以被提升到赶上甚至超越最先进的传统方法却还仍然是一个未知数。今天我们非常高兴能够与大家分享《State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels》[4],它介绍了一种超越传统生产系统[1]性能的全新端到端模型。论文中展示了,我们的端到端系统取得了5.6%的单词错误率(Worderrorrate,WER),相比于强大的传统系统(6.7%WER)取得了16%的提升。此外,这个用于输出初始单词假设的端到端模型,由于没有独立的发音模型和语言模型,因此比传统模型小了18倍。我们的系统建立在Listen-Attend-Spell(LAS)的端到端体系结构的基础上,该体系结构最先由[2]提出。LAS架构由三个组件构成。首先是听者编码器组件(Listenerencoder
转载请注明:http://www.0431gb208.com/sjszjzl/8126.html