微软首席科学家黄学东
来源:MicrosoftResearch
整理:AgnesPan
微软的研究员们在计算机语音识别和理解的技术上,向前迈进了里程碑式的一大步。微软全球执行副总裁沈向洋(HarryShum)在Twitter上和大家分享了这个好消息。
微软的研究员们在最近的行业标准Switchboard语音识别基准测试中,实现了单词错误率(WER)低至6.3%的新突破,为目前该领域内错误率最低。
在本周二发布的一篇研究论文中,科学家们指出:“我们最先进的单个系统已经能在NISTSwitchboard测试上实现6.9%的错误率。我们相信,目前这已经是单个系统能实现的最低错误率了。而一组语音模型的结合甚至能使Switchboard的测试错误率降低到6.3%。”
就在过去的这个周末,IBM刚刚在旧金山的Interspeech会议(国际语音传播和技术大会)上宣布实现了6.6%的错误率。而在二十年前,最好的研究系统所能实现的最低错误率还高达43%。
“这个新里程碑的创造得益于20年来飞速发展的AI领域,以及该领域研发出的各类新技术。”微软语音识别首席科学家黄学东表示。
如今,很多研究员坚信,这些不断发展的技术很快就能让计算机完全理解人类的语音,与人类自身互相理解的误差将趋于零。这也与微软想要提供更多个人计算体验的发展策略相呼应,如微软目前拥有的Cortana智能私人助理,SkypeTranslator和其它一些语音及语言识别服务。
微软的语音研究对于该公司AI研究的发展也有重要的意义,语音识别的发展能使系统更准确解读收用户的需求,并作出相应回应。这对于公司整体的未来期许也十分关键,能更好地研发会看、会听、会说甚至会理解的智能系统,从而更好地协助人类工作。
IBM和微软一致认为,深度神经网络的出现是实现语音识别技术快速发展的关键。数十年来,计算机科学家一直都在努力让计算机系统学会识别图像,理解语音,但一直到现在,这些系统都还在被不可避免的误差所困扰。
神经网络系统由一系列不同层面组成。今年年初,微软研究员运用了一种新的跨层网络连接的深度神经网络系统,赢得了ImageNet的计算机视觉挑战。
微软研究员们最近取得的另一个重要成就是CNTK。CNTK实现了复杂的最优化,大大提高了深度学习算法的运行速度。这关键的一步成为了GPU并行训练的重大突破。
虽然GPU是为计算机图像设计的,但近几年,研究员们发现它们对于运行如语音识别这样的复杂算法也很有用。微软早已在虚拟私人助理Cortana开发中运用了CNTK。通过结合运用CNTK和GPU群组,Cortana现在已可以在相同时间段内接收之前10倍以上的数据。
微软的首席研究员及微软语音对话组的经理GeoffreyZweig,主要负责Switchboard语音识别研究。他认为公司之所以能在语音识别领域做到行业领先,主要得益于研究员们的专业能力。正是因为这些拥有高水准专业能力的研究员,才会让新训练算法得到发展,才会有高度优化的神经网络模型,才会实现如CNTK的各种工具的发展。
微软的首席研究员及微软语音对话组的经理GeoffreyZweig
“我们组建的研究团队拥有长期的领域内语音技术研发经历,正推动着语音识别技术的不断发展。”Zweig说道。
Huang补充道,这个语音识别技术的里程碑,在微软的AI研发之旅上也会是一个重要标记。AI发展策略中关键的一个因素就是对话平台(ConversationasaPlatform,CaaP)。微软在年初的公司年度研发者论坛上就曾强调了CaaP策略。在会议中,微软CEOSatyaNadella提到,CaaP将会对计算体验有重大的影响,就像之前图形用户界面的转变所带来的影响——
“这是一个很简单的概念,但它带来的影响却不容小觑。这就像是提炼出人类语言的功能,并将它更广泛运用到计算中一样。”Nadella说道。
想要了解更多技术细节,欢迎大家在“将门创业”(thejiangmen)
转载请注明:http://www.0431gb208.com/sjszlff/317.html