AI科技报道
作者
青暮
近日,FacebookAI研究院(FAIR)发布了无监督的wav2vec架构——wav2vec-U。
FAIR表示,这是一种构建根本不需要语音-文字转录数据的语音识别系统,性能也很不错,可以与几年前最好的监督模型的性能相媲美,而后者是在将近个小时的转录语音上进行训练的。
FAIR表示:由于带标签数据的匮乏,目前语音识别技术仅在少量语言中应用,并且这些数据也还没有通用到可以适应任意的语言、方言和说话方式。因此,他们开发了这一系统。
FAIR使用斯瓦西里语和鞑靼语等语言对wav2vec-U进行了测试,这些语言目前尚无法使用高质量的语音识别模型,因为它们缺乏大量的带标签的训练数据。结果表明,wav2vec-U有很好的广泛适用性。
图灵奖得主、FAIR首席科学家YannLeCun在推特上表示:
事实证明,我们可以用不带标签的语音数据训练语音识别系统。只需要一个文本转音素系统来生成音素序列。这些序列的统计信息足以“监督”没有任何标记语音的语音识别器。
1
wav2vec-U
Wav2vec-U只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。
wav2vec-U训练过程包括三个的主要步骤:
准备语音表示和文本数据生成对抗训练(GAN)迭代自训练+KaldiLM解码与以前的ASR系统相比,FAIR采用了一种新颖的方法:该方法首先从未标记的音频中学习语音的结构。
通过FAIR开发的自监督模型wav2vec2.0和简单的k均值聚类方法,研究人员将语音数据分割成与发音对应的语音单元。(例如,猫这个词包含三个发音:“/K/”,“/AE/”和“/T/”。)
为了学习识别录音中的单词,研究人员训练了一个生成对抗网络(GAN)。生成器获取嵌入在自监督表示中的每个发音片段,并预测相对应的音素,鉴别器会评估预测的音素序列是否看起来逼真。一开始,转录效果很差,随着训练的进行,生成器的生成结果逐渐变得准确。
在GAN训练提供了第一个非监督模型之后,研究人员使用半监督学习的多次迭代逐步完善转录的质量。
研究人员执行了两次迭代:首先,使用无监督的GAN模型对训练数据进行伪标记,然后在伪标签上训练HMM。其次,研究人员用HMM重新标记训练数据,然后使用具有CTC损失的HMM伪标签微调原始的wav2vec2.0模型。
请注意,HMM模型使用音素作为输出,而wav2vec2.0使用字母作为输出。两者均使用WFST解码器解码为字。
为了了解wav2vec-U的工作情况,研究人员首先在TIMIT基准测试中对其进行了评估,与先前最优的无监督方法相比,它使错误率降低了57%。
wav2vec-U与TIMIT基准测试中先前最优的无监督方法进行了比较。
在更大的Librispeech基准上,监督模型通常使用个小时的语音-文字转录数据进行训练。研究人员发现wav2vec-U与几年前的最优监督模型性能相当。FAIR表示,这表明没有监督的语音识别系统也可以达到非常好的质量。
wav2vec-U与Librispeech基准测试上的监督模型相比。来源:paperswithcode.
转载请注明:http://www.0431gb208.com/sjsbszl/2215.html