语音领域的ImageNet时刻为何迟

来源：语言识别时间：2023/5/5

白癜风的早期症状图片 http://m.39.net/pf/a_4678322.html

选自Gradient

作者：AlexanderVeysov

机器之心编译

参与：NeuR

目前在计算机视觉领域已经有了一个普遍认识，那就是ImageNet预训练对于下游任务的有效性，来自silero.ai的俄国数据科学家AlexanderVeysov将这一现状称为实现了「ImageNet时刻」。那么它在语音领域是否存在呢？在本文中AlexanderVeysov给出了否定的回答，并讨论了目前语音领域业界和学界存在的弊病，解释了为何迟迟未能实现「ImageNet时刻」。

本文希望回答以下两个问题：

什么是所谓的「ImageNet时刻」（ImageNetmoment），以及它为什么重要？

为什么语音领域还未实现「ImageNet时刻」，学界和业界应为此负哪些责任？

什么是「ImageNet时刻」？

在给定的机器学习子领域中，要实现「ImageNet时刻」，需要满足以下条件：

用于解决95%标准「有用」任务的架构和所需模型构建块是广泛可用的，并可作为标准、经过测试的开源框架模块；

大多数用大型数据集预训练的流行模型都是可用的，只需要相对少量的数据就可以微调并应用到下游任务中；

在标准任务的预训练模型基础上进行微调，能够得到解决不同日常任务的模型（且效果较好）；

对于日常任务，对比之前论文中所需要的计算资源，例如STT（Speech-To-Text，语音到文本）模型的训练需要-0GPU天，此时训练模型所需的计算资源很小（STT模型的训练只需要1-10GPU天）；

预训练大型模型的计算量对于小规模的独立公司和研究团队而言是可承受的。

如果以上条件都满足了，人们就可以用合理的成本开发新的应用。同时这也实现了该子领域的民主化，即人们不需要再依赖大公司（例如谷歌），认为在业界只有它们的研发成果才是可靠的。

为什么「ImageNet时刻」尚未到来？

为了理解这个观点，我们来看看计算机视觉（CV）领域中，那些导向「ImageNet时刻」的标志性事件和趋势。

导致CV领域「ImageNet时刻」的关键事件和趋势。

这个过程简述如下：

英伟达在数十年间研发和优化了消费级GPU。众所周知，我们现在仅需要将4-8块顶级GPU组合起来，就相当于造出了一台「超级计算机」；

据说在年代末，英伟达就设想GPU的性能能够满足机器学习的需要，并开始投入CUDA的开发（CUDA于年首次发布）。CUDA是一种低级矩阵乘法框架，是大多数GPU加速机器学习应用的基础；

年，由李飞飞教授带领的团队发布了ImageNet数据集，并在年举办了首届「ImageNet大规模视觉识别挑战赛」（ILSVRC）。年，AlexKrizhevsky等人使用英伟达GPU和CUDA训练出AlexNet神经网络，性能远超之前；

之后人们更多地投入深度学习框架的开发，并在-年发展到了成熟期。截至本文发表，PyTorch和TensorFlow已成为首选框架，它们都提供了针对多项任务（包括图像分类）的大量预训练模型；

同期在ImageNet上实现SOTA性能的模型架构经过了不断的精炼，同时训练和评估这些模型的代码也在这些常用的框架中和预训练权重一起发布了。

因此到年，在CV社区中「ImageNet时刻」已经完全实现了：

这个现象在CV社区已经变得越来越普遍，即不把在ImageNet上训练图像识别当作任务的结束，而是当作训练深度卷积神经网络以学习有用和通用特征的预任务。这种首先在ImageNet上训练CNN来执行图像分类（即预训练），然后在新的目标任务上调整这些特征（即微调）的做法，已经成为解决大量CV问题的事实标准。通过利用ImageNet预训练CNN的特征，我们在一系列图像分类数据集上实现了惊人的结果，此外还包括目标检测、动作识别、人类姿态估计、图像分割、光流估计、图像捕捉等任务。

为了简化论证，我们假设STT和CV使用相同的硬件加速选项、框架以及神经网络架构。然而，在预训练模型、迁移学习和数据集方面，STT是落后于CV的。同时，STT的计算资源需求仍然太高。

那么，为什么会出现这种情况呢？大部分语音方面的研究是由业界/企业赞助的学术人员发表的。本文将对学界和业界对语音研究现状的影响进行批判。

对业界的批判

通常，大部分STT论文是由来自业界的研究员发表的（例如谷歌、百度和Facebook）。本文大部分对STT论文和解决方案的批评可以根据研究员的背景分为「学界」部分和「业界」部分。

简单来说，以下是我们对于STT「业界」部分的主要担忧：

在私有数据上实现解决方案，并且没有进行如实表述；

框架和工具包过于复杂；

解决现实中不存在的问题；

研究结果不可复现。

在私有数据上实现解决方案，且未进行如实表述

著名的DeepSpeech2（）论文中出现了以下表格：

这个表格的大意是，要得到高质量的模型，需要大量的数据。这是明确表述该结果并执行了数据集外验证的少量论文中的一篇。而大多数现代STT论文通常只是用成本更高昂的方法严重过拟合LibriSpeechASR语料库(LibriSpeech)。

谷歌、Facebook和百度可能拥有00-000小时的数据集，用于训练模型。这倒还好，但不好的一点是，他们使用这些数据来提高模型的性能，却没有在论文中报告相关细节。语音标注很费时，这使得问题更加严重。由于过高的数据代价，该领域的普通玩家没办法构建自己的数据集。即使他们使用相似的标注方法（

转载请注明：http://www.0431gb208.com/sjslczl/4476.html

上一篇文章： AI在日常生活中的无形之手

下一篇文章：没有了