FacebookAI研究院在无监督语音识

来源：语言识别时间：2022/11/2

AI科技报道

作者

青暮

近日，FacebookAI研究院（FAIR）发布了无监督的wav2vec架构——wav2vec-U。

FAIR表示，这是一种构建根本不需要语音-文字转录数据的语音识别系统，性能也很不错，可以与几年前最好的监督模型的性能相媲美，而后者是在将近个小时的转录语音上进行训练的。

FAIR表示：由于带标签数据的匮乏，目前语音识别技术仅在少量语言中应用，并且这些数据也还没有通用到可以适应任意的语言、方言和说话方式。因此，他们开发了这一系统。

FAIR使用斯瓦西里语和鞑靼语等语言对wav2vec-U进行了测试，这些语言目前尚无法使用高质量的语音识别模型，因为它们缺乏大量的带标签的训练数据。结果表明，wav2vec-U有很好的广泛适用性。

图灵奖得主、FAIR首席科学家YannLeCun在推特上表示：

事实证明，我们可以用不带标签的语音数据训练语音识别系统。只需要一个文本转音素系统来生成音素序列。这些序列的统计信息足以“监督”没有任何标记语音的语音识别器。

wav2vec-U

Wav2vec-U只需要从录制的语音音频和未配对的文本中学习，无需进行任何转录。

wav2vec-U训练过程包括三个的主要步骤：

准备语音表示和文本数据生成对抗训练（GAN）迭代自训练+KaldiLM解码与以前的ASR系统相比，FAIR采用了一种新颖的方法：该方法首先从未标记的音频中学习语音的结构。

通过FAIR开发的自监督模型wav2vec2.0和简单的k均值聚类方法，研究人员将语音数据分割成与发音对应的语音单元。（例如，猫这个词包含三个发音：“/K/”，“/AE/”和“/T/”。）

为了学习识别录音中的单词，研究人员训练了一个生成对抗网络（GAN）。生成器获取嵌入在自监督表示中的每个发音片段，并预测相对应的音素，鉴别器会评估预测的音素序列是否看起来逼真。一开始，转录效果很差，随着训练的进行，生成器的生成结果逐渐变得准确。

在GAN训练提供了第一个非监督模型之后，研究人员使用半监督学习的多次迭代逐步完善转录的质量。

研究人员执行了两次迭代：首先，使用无监督的GAN模型对训练数据进行伪标记，然后在伪标签上训练HMM。其次，研究人员用HMM重新标记训练数据，然后使用具有CTC损失的HMM伪标签微调原始的wav2vec2.0模型。

请注意，HMM模型使用音素作为输出，而wav2vec2.0使用字母作为输出。两者均使用WFST解码器解码为字。

为了了解wav2vec-U的工作情况，研究人员首先在TIMIT基准测试中对其进行了评估，与先前最优的无监督方法相比，它使错误率降低了57％。

wav2vec-U与TIMIT基准测试中先前最优的无监督方法进行了比较。

在更大的Librispeech基准上，监督模型通常使用个小时的语音-文字转录数据进行训练。研究人员发现wav2vec-U与几年前的最优监督模型性能相当。FAIR表示，这表明没有监督的语音识别系统也可以达到非常好的质量。

wav2vec-U与Librispeech基准测试上的监督模型相比。来源：paperswithcode.

下一篇文章：没有了