谷歌的野心通用语音识别大模型已经支持10

来源：语言识别时间：2024/8/6

选自googleblog

机器之心编译

编辑：小舟、杜伟

谷歌表示，推出通用语音模型（USM）是其未来支持种语言的关键一步。

去年11月，谷歌宣布推出「种语言计划」，旨在构建一个机器学习(ML)模型，支持世界上使用最广泛的种语言，从而为全球数十亿人带来更大的包容性。然而，其中一些语言的使用人数不到两千万，因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

现在，谷歌公开了更多有关通用语音模型(USM)的信息，这是支持种语言的第一步。USM包含一系列SOTA语音模型，带有20亿参数，经过万小时的语音和亿个文本句子的训练，涵盖多种语言。USM不仅可以对英语和普通话等广泛使用的语言执行自动语音识别（ASR），还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器，并用较小的标记数据集进行微调，能够让模型识别使用人数非常少的语言。此外，谷歌的模型训练过程可以有效地适应新的语言和数据。

USM支?持的语言示例。

当前的挑战

为了实现「种语言计划」，谷歌需要解决ASR中的两个重大挑战。

首先，传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获得足够的数据来训练高质量的模型。使用传统方法，音频数据需要手动标记，这既费时又昂贵；或者从已有数据中收集可用数据，但这对于使用人数很少的语言来说很难找到。

相比之下，自监督学习可以利用纯音频数据，这些数据包含大量不同的语言，使得自监督学习成为实现跨数百种语言扩展的好方法。

另一个挑战是，在扩大语言覆盖范围和提升模型质量的同时，模型必须以计算高效的方式进行改进。这就要求学习算法具有灵活性、高效性和泛化性。更具体地说，算法需要能够使用来自各种来源的大量数据，在不需要完全重新训练的情况下启用模型更新，并推广到新的语言和用例。

解决方法：带有微调的自监督学习

USM使用标准的编码器-解码器架构，其中解码器可以是CTC、RNN-T或LAS。对于编码器，USM使用Conformer或卷积增强型transformer。Conformer的关键组件是Conformer块，它由注意力模块、前馈模块和卷积模块组成。它将语音信号的log-mel声谱图作为输入并执行卷积下采样，之后应用一系列Conformer块和投影层以获得最终嵌入。

USM的训练流程如下图所示：

第一步先从对涵盖数百种语言的语音音频进行自监督学习开始。

第二步是可选步骤，谷歌通过使用文本数据进行额外的预训练来提高模型的质量和语言覆盖率。是否采用这个步骤取决文本数据是否可用。

训练pipeline的最后一步是使用少量有监督数据微调下游任务（例如，ASR或自动语音翻译）。

USM的整体训练流程。

第一步中谷歌使用了BEST-RQ，因为它已经在多语言任务上展示了SOTA结果，并且在使用大量无监督音频数据时被证明是有效的。

在第二步中，谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM模型引入了一个额外的编码器模块将文本作为输入，并引入了额外的层来组合语音编码器和文本编码器的输出，然后再在未标记语音、标记语音和文本数据上联合训练模型。

凭借在预训练期间获得的知识，最后一步USM模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。

主要结果展示

YouTubeCaptions测试集上不同语言的性能

谷歌的编码器通过预训练整合了多种语言，并通过在YouTubeCaption多语言语音数据上微调证明了该预训练编码器的有效性。监督式YouTube数据包括73种语言，每种语言平均具有不超过0小时的数据。尽管监督数据有限，USM仍在73种语言中平均实现了低于30%的词错率（WER，越低越好），这是以往从未实现的里程碑。对于en-US，与当前谷歌内部SOTA模型相比，USM的WER相对降低了6%。

谷歌还与OpenAI近期发布的大模型Whisper(large-v2)进行了比较，后者使用超过k小时的标注数据进行训练。为了便于比较，谷歌仅使用Whisper可以成功解码且WER低于40%的18种语言。结果如下图所示，USM的平均WER比Whisper低了32.7%。

对于下游ASR任务的泛化性能

对于公开可用的数据集，USM在CORAAL（非裔美国人土语）、SpeechStew（en-US）和FLEURS（种语言）数据集上显示出了较Whisper更低的WER。USM在接受和没有接受域内数据训练的情况下都实现了更低的WER。具体结果如下图所示。

自动语音翻译（AST）性能

对于语音翻译，谷歌在CoVoST数据集上进行微调。谷歌的模型（包括通过pipeline第二阶段的文本）在有限监督数据下实现了SOTA性能。此外，为了评估模型性能的广度，谷歌根据资源可利用性将CoVoST数据集中的语言分为了高（high）、中（medium）和低（low），并计算相应的BLEU分数（越高越好）。

如下图所示，USM在所有语言细分中超越了Whisper。

未来将支持种语言

USM的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信，USM的基础模型架构和训练pipeline奠定了将语音建模扩展到未来种语言的根基。

上一篇文章：这篇文章告诉你免费识别翻译文字的软件有哪

下一篇文章： Mozilla开放源码数据集实现多语言语