毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

未来十年,AI语音识别将朝着这五个方向发

来源:语言识别 时间:2023/9/17

作者

MigüelJetté

编译

bluemin

编辑

陈彩娴

在过去的两年中,自动语音识别(AutomaticSpeechRecognition,ASR)在商用上取得了重要的发展,其中一个衡量指标就是:多个完全基于神经网络的企业级ASR模型成功上市,如Alexa、Rev、AssemblyAI、ASAPP等。年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的“Switchboard”数据集上,达到了人类水平(通过单词错误率来衡量)。ASR的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。

图源:AwniHannun的博文“SpeechRecognitionisnotSolved”

随着ASR技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是ASR商用的巅峰,该领域的研究与市场应用还有待发掘。我们预计未来十年AI语音的相关研究和商业系统将重点攻克以下五个领域:1多语言ASR模型“在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。”图源:AlexisConneau等人在年发表的“Unsupervisedcross-lingualrepresentationlearningforspeechrecognition”论文如今的商用ASR模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期

转载请注明:http://www.0431gb208.com/sjslczl/5692.html