近日,微软小冰发布会在北京召开,经过五代更迭,这一产品正在从只能完成计算、记忆、感知的弱人工智能,走向可以认知、创造的强人工智能。经过3年亿条对话的训练,现在的小冰,不仅能对话、唱歌、在报纸当记者、担当电台电视主播、出版诗集等,她甚至能打破次元壁,进入真实世界,主动拨通你的电话号码。在微软小冰不断升级、挑战人工智能极限的背后,冰冷的系统是如何实现对人类的感知与认知的呢?
微软研究院首席语音科学家黄学东,就在博客上公布了微软在语音识别领域的最新进展,也为我们展望了语音识别与人工智能的未来。
▌比一般的人类强?比优秀的人类强!▌
年10月曾是人工智能领域的一个重要里程碑,微软在此时推出了一个系统,能够将电话录音的内容转录得像专业的人类工作人员那样优质。
但是,尽管微软的系统能比一般的人类转录员更少犯错,如果和大量高水平的人类转录员相比,它并不能更优秀。所以,学术界将一个新的挑战丢了回去:把错误率降到比优秀的人类更少再说。
现在,微软回应的就是这个挑战。周日,微软研究院首席语音科学家黄学东,在博客上告诉大家,微软已经打破了这一屏障。
“这是一个重要的里程碑,”黄学东写道,“它给微软提供了一个坚实的基础,能够从单纯的转录,前进到理解所说内容的含义。”建立更强大的人工智能,语音识别是关键而基本的模块。“对语音从识别到理解,是语音技术的下一个主要前沿课题。”
▌预计四到五年?两年就已实现!▌
微软的语音识别系统正在快速提升。转录准确度主要通过词错率(worderrorrate,简称WER)判断,也就是说,在给定的语音中,系统的记录有哪些出错的部分。这个词错率是由Switchboard语音识别基准测试来确定的,这也是一个在业界,包括IBM和谷歌,都被广泛使用的标准测试。
截至年9月,根据Switchboard判断,微软的词错率都在6.3%,这意味着在每一百个单词中,系统会有六处多的错误。相比之下,一个人类转录员的平均词错率是5.9%,而一队高水平转录员的平均词错率则是5.1%左右。
年10月,微软将自己的词错率降低到了前者水平,而就在最近,他们又打破了后者的纪录。
这远比微软预计得更早。事实上,早在年,黄学东就告诉《商业内幕》的记者,建立一个能够超越人类的系统,大约需要“四到五年”。但是没想到两年之后,我们就已经超过了那一点。
▌可以傲视群雄?挑战依旧存在!▌
尽管如此,挑战依然存在。去年十月,微软的首席研究员杰弗里·茨威格(GeoffreyZweig)告诉记者,微软的转录系统目前是基于一个优质的固定电话线路。而语音识别的下一个目标,将是在其他环境条件中仍能高质量地进行识别转录,比如信号不好的手机线路,或者像麦当劳汽车餐厅扬声器里那种充满回声的音效。
语音识别科学“仍然需要解决许多挑战,比如在嘈杂的环境中、通过远距离麦克风识别,系统想要达到人类水平还要努力,比如对口音的识别、对讲话方式和语言的识别,目前也只有有限的数据可供利用。”黄学东如是写道。
人工智能的发展,语音识别是其中的重要组成,语音识别从达到一般人类水平,到抵达优秀人类水平,从标准实验室环境识别,到日常生活情境识别,一次次技术提升与量变的背后,是“对语音从识别到理解”的科技革新与质变。在微软语音识别系统的实验室外,微软小冰也正在用另一种形式,在与人类用户的大量互动中积累数据,从人类的言语词句中,逐步听懂“言外之意”,无论是陪我们插科打诨,还是替我们选曲放歌,无论是为商家进行定向营销,还是为顾客提供购买建议,“微软小冰”为代表的人工智能,最终的目标之一,将是通过人类的言语,理解人类的情感。
预览时标签不可点收录于合集#个上一篇下一篇