未来十年,AI语音识别将朝着这五个方向发

来源：语言识别时间：2023/9/17

作者

MigüelJetté

编译

bluemin

编辑

陈彩娴

在过去的两年中，自动语音识别（AutomaticSpeechRecognition,ASR）在商用上取得了重要的发展，其中一个衡量指标就是：多个完全基于神经网络的企业级ASR模型成功上市，如Alexa、Rev、AssemblyAI、ASAPP等。年，微软研究院发表了一篇文章，宣布他们的模型在已有25年历史的“Switchboard”数据集上，达到了人类水平（通过单词错误率来衡量）。ASR的准确性仍在不断提高，在更多的数据集和用例中逐渐达到人类水平。

图源：AwniHannun的博文“SpeechRecognitionisnotSolved”

随着ASR技术的识别准确度大幅提升，同时应用场景越来越丰富，我们相信：现在还不是ASR商用的巅峰，该领域的研究与市场应用还有待发掘。我们预计未来十年AI语音的相关研究和商业系统将重点攻克以下五个领域：1多语言ASR模型“在未来十年，我们将在生产环境中部署真正的多语言模型，使开发人员能够构建任何人都能理解任意语言的应用程序，从而真正向全世界释放语音识别的力量。”图源：AlexisConneau等人在年发表的“Unsupervisedcross-lingualrepresentationlearningforspeechrecognition”论文如今的商用ASR模型主要使用英语数据集进行训练，因此对英语输入具有更高的准确性。由于数据可用性和市场需求，学术界和工业界对英语的长期

转载请注明：http://www.0431gb208.com/sjslczl/5692.html

上一篇文章：图片翻译在线识别怎么识别翻译图片文字的几

下一篇文章：语音翻译软件有哪些一起来看看吧