OpenAI开源自动语音识别系统Whis

来源：语言识别时间：2024/8/30

OpenAI在周三（9/21）开源了号称其英文语音识别能力已达到人类水准的Whisper神经网络，且它也支持其它98种语言的自动语音识别。

Whisper系统所提供的自动语音识别（AutomaticSpeechRecognition，ASR）模型是被训练来执行语音识别与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。

Whisper系统目前提供了9种模型，它们的参数数量与功能不一，这些模型总计经过68万小时的语音训练，以及比对了从网络上搜集而来的文本转写内容，其中有68%的资料为英文语音与英文文本，另有18%的非英文语音及英文文本，以及17%的非英文语音及相对应的文本。而这些非英文的资料涉及98种不同的语言。

由此可知，Whisper模型主要的任务是语音识别并将它们转成英文，虽然支持98种语言，但仅于不到10种的语言中可达到强大的ASR能力。

OpenAI表示，他们最初设想这些模型应该最适合AI研究人员，协助他们研究现有模型的稳健性、泛化性、能力、偏见或限制，但随后发现，Whisper应该也适用于打造ASR解决方案的开发者，特别是用在英文语音识别上。

OpenAI也期望Whisper模型的转录能力可用来协助改善无障碍工具，尽管Whisper模型无法直接进行即时转录，但开发者也许可利用这些模型开始接近即时的语音识别及转录应用，或是带来实际的经济影响。