毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

谷歌发布全新端到端语音识别系统词错率降低

来源:语言识别 时间:2024/12/20
白癜风治疗的较有效医院 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/bdf/
近日,谷歌发表博客介绍了他们对端到端语音识别模型的最新研究成果,新模型结合了多种优化算法提升LAS模型的性能。相较于分离训练的传统系统,新方法充分地发挥了联合训练的优势,在语音搜索任务中取得了当前业内最低的词错率结果。当前最佳语音搜索模型传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用,它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成,所有这些都会经过独立训练,同时通常是由手动设计的,各个组件会在不同的数据集上进行训练。AM提取声学特征并预测一系列子字单元(subwordunit),通常是语境依赖或语境独立的音素。然后,手动设计的词典(PM)将声学模型生成的音素序列映射到单词上。最后,LM为单词序列分配概率。独立地训练各个组件会产生额外的复杂性,最终得到的性能低于联合训练所有的组件。过去几年来出现了越来越多开发中的端到端系统尝试以单个系统的方式联合学习这些分离的组件。虽然相关文献表明这些端到端模型具有潜在价值[2,3],但对于这样的方法是否能提升当前最佳的传统系统的性能,尚无定论。最近,谷歌发布了其最新研究,「使用序列到序列模型的当前最佳语音识别系统」(State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels[4])。这篇论文描述了一种新型的端到端模型,它的性能优于目前已商用的传统方法[1]。在谷歌的研究中,新的端到端系统的词错率(WER)可以降低到5.6%,相对于强大的传统系统有16%的性能提升(6.7%WER)。此外,该端到端模型可以在任何的假设再评分(hypothesisrescoring)之前输出初始词假设。该模型的大小只有传统模型的1/18,因为它不包含分离的LM和PM。谷歌的新系统建立在Listen-Attend-Spell(LAS,在文献[2]中首次提出)端到端架构之上。LAS架构由三个组件组成。listener编码器组件,和标准的AM相似,取输入语音信号x的时间-频率表征,然后使用一系列的神经网络层将输入映射到一个高级特征表示,henc。编码器的输出被传递到attender,其使用henc学习输入特征x和预测子字单元的{y_n,...y_0}之间的对齐方式,其中每个子字通常是一个字素或字片。最后,attention模块的输出被传递给speller(即解码器),speller和LM相似,可以生成一系列假设词的概率分布。LAS模型的所有组件通过单个端到端神经网络联合地训练,相较于传统系统的分离模块更加简单。此外,因为LAS模型都是神经网络类型,因此并不需要添加外部的手动设计组件,例如有限状态转换器、词典或文本归一化模块。最后,和传统模型不同,训练端到端模型不需要决策树的引导或一个分离系统生成的时间序列,给定了文本副本和相关的声学特征之后,就可以进行训练。在文献[4]中,谷歌引入了一种新型的结构化提升,包括优化传递给解码器的注意力向量,以及优化更长的子字单元(即字片,wordpieces)的训练过程。此外,谷歌在新模型中还引入了大量的优化训练过程的方法,包括最小词错率训练法(minimumworderrorratetraining[5])。正是这些结构化和优化提升使新模型取得了相对于传统模型16%的性能提升。这项研究的另一个潜在应用是多方言和多语言系统,仅需优化单个神经网络所带来的简单性是很有吸引力的。所有的方言/语言可以被组合以训练一个网络,而不需要为每个方言/语言分配分离的AM、PM和LM。谷歌生成这些模型在7种英语方言[6]和9种印度方言[7]上都工作得很好,优于分离地训练模型的性能。虽然结果很吸引人,但是研究人员认为目前的探索还尚未完成。第一,这些模型还不能实时地处理语音[8,9,10],而实时处理对于延迟敏感的应用如语音搜索而言是必要的。第二,这些模型在实际生产数据上进行评估的时候表现仍然不佳。第三,谷歌目前的端到端模型是在22,个录音-文本对上学习的,而传统系统通常可以在显著大得多的语料库上进行训练。最后,新模型还不能为生僻词学习合适的拼写,例如专有名词(一般还需要使用手动设计的PM)。谷歌接下来的目标将是解决这些问题。论文:State-of-the-artSpeechRecognitionWithSequence-to-SequenceModels论文链接:

转载请注明:http://www.0431gb208.com/sjszlfa/8124.html

  • 上一篇文章:
  • 下一篇文章: 没有了