作者
MigüelJetté
编译bluemin
编辑
陈彩娴
在过去的两年中,自动语音识别(AutomaticSpeechRecognition,ASR)在商用上取得了重要的发展,其中一个衡量指标就是:多个完全基于神经网络的企业级ASR模型成功上市,如Alexa、Rev、AssemblyAI、ASAPP等。年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的“Switchboard”数据集上,达到了人类水平(通过单词错误率来衡量)。ASR的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。图源:AwniHannun的博文“SpeechRecognitionisnotSolved”
随着ASR技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是ASR商用的巅峰,该领域的研究与市场应用还有待发掘。我们预计未来十年AI语音的相关研究和商业系统将重点攻克以下五个领域:1多语言ASR模型“在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。”图源:AlexisConneau等人在年发表的“Unsupervisedcross-lingualrepresentationlearningforspeechrecognition”论文如今的商用ASR模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期转载请注明:http://www.0431gb208.com/sjslczl/5692.html