出品
开源中国
拥有GTP-3语言模型,并为GitHubCopilot提供技术支持的人工智能公司OpenAI近日开源了Whisper自动语音识别系统,OpenAI强调Whisper的语音识别能力已达到人类水准。
Whisper是一个自动语音识别(ASR,AutomaticSpeechRecognition)系统,OpenAI通过从网络上收集了68万小时的多语言(98种语言)和多任务(multitask)监督数据对Whisper进行了训练。OpenAI认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper还能实现多种语言的转录,以及将这些语言翻译成英语。OpenAI开放模型和推理代码,希望开发者可以将Whisper作为建立有用的应用程序和进一步研究语音处理技术的基础。
Whisper执行操作的大致过程:
输入的音频被分割成30秒的小段、转换为log-Mel频谱图,然后传递到编码器。解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。
相比目前市面上的其他现有方法,它们通常使用较小的、更紧密配对的「音频-文本」训练数据集,或使用广泛但无监督的音频预训练集。因为Whisper是在一个大型和多样化的数据集上训练的,而没有针对任何特定的数据集进行微调,虽然它没有击败专攻LibriSpeech性能的模型(著名的语音识别基准测试),然而在许多不同的数据集上测量Whisper的Zero-shot(不需要对新数据集重新训练,就能得到很好的结果)性能时,研究人员发现它比那些模型要稳健得多,犯的错误要少50%。
目前Whisper有9种模型(分为纯英文和多语言),其中四种只有英文版本,开发者可以根据需求在速度和准确性之间进行权衡,以下是现有模型的大小,及其内存要求和相对速度:
OpenAI希望Whisper的高准确性和易用性可以让开发者在更广泛的应用中加入语音识别功能,尤其是用来协助改善无障碍工具。
转载请注明:http://www.0431gb208.com/sjslczl/5771.html