演讲实录丨黄学东语音识别和人工智能进展回

来源：语言识别时间：2022/5/4

主题：全球人工智能技术大会

时间：年5月21日

地点：国家会议中心4层大会堂B

本文根据速记进行整理

语音识别和人工智能进展回顾

黄学东

微软公司全球资深技术院士

黄学东：大家好！我今天非常高兴来到北京，在强烈的灯光照射下我看不到大家，但是大家能看到我。在我开始之前，我想跟大家简单介绍一下，我们是怎样一个激动人心的时代，我们生活在这个时代多么幸运。大家看一下这个视频。

我们过去多少代人没有实现的梦想，这是一个非常激动人心的时代。在我开始之前，我想给大家看一下经济学人的封面故事。封面故事说，我们终于可以和人交流了，封面故事讲的非常深刻，它是从年，IBM从做机器翻译开始，描述了从50年代、60年代、70年代，一直到年，几个很重要的历史性的里程碑。这里可以看出来，在贝尔实验室当时做了很多语音识别的实验，一直到美国军方在70年代末发动了大规模的语音和语言理解的研究，到苹果、谷歌和微软相继推出语音的智能助理，深度的机器翻译和去年年末，微软第一次在（英文）上历史性的达到了和人一样的媲美的语音转录系统，这是一个追求卓越，追求人工智能突破一个非常显著的成就。

人工智能从总体上来讲包括了感知和认知两大类。感知的突破是前所未有的，认知的突破还非常难以预测。深度学习在计算机视觉上的突破非常激动人心，我们发明了深度的RESNET，层数有多层，PPT很难展示，首次超过了人在图形识别上的精确性，这是一个非常了不起的成就。在去年年末，我们再次获得了振奋人心的消息，语音识别系统达到了和人一样的高度，这是一个里程碑，我82年在清华大学做语音识别的研究，很难想象在30年中计算机的识别能超过人，因为语言是我们人特有的发明，我们和猴子最大的不同地方，我们可以用语言描述周围深刻的世界，可以描述我们看不见的东西。今天计算机第一次可以获得和人一样的精准的转录系统，这是非常了不起的人工智能里程碑。

在前两年，我和卡耐基梅隆大学（英文）教授和Dragon创始人在ACM杂志合写了一篇语音识别过去40年的回顾，没想到这个回顾的东西已经过时了，由此可见语音识别、人工智能发展速度有多么快。这张图片大概总结了在过去几十年来，整个研究界在公开测试中做的努力，我们把平均发表（英文）的文章做了一个统计，大部分的系统都是在10%到15%左右，一些非常新颖的东西，错误率超过了20%，但是IBM在过去一直领导业界的潮流，他们在（英文）上取得了非常卓越的成就，在6%到5%之间。微软和其他很多同行一样，也在致力于开发语音助手，在Windows10我们和其他硬件厂商，像HarmanKardon提供语音音箱，深入我们的生活。

我们看另外一个话题，看他们造就了一个怎样的生态系统，看一下视频。我解释一下，我们采访了美国很多公司，他们是怎样开发自己的语音助理，一起为大家提供优秀的服务。人工智能的核心技术基本上经历了过去几十年的变化，现在最具有代表性的是深度学习。

深度学习基于好几个东西，第一个，我们需要有大的数据，所以智能语音能搜集非常多的数据，这是一个非常重要的东西。第二，不同的设备，像智能音箱，你的手机、PC和其他的智能设备，都会无缝结合起来，所以在这个互动情况下，人工智能可以发挥更大的作用。所以在人工智能这个过程中，我们需要大的计算，需要更强大的算法，需要更多的数据。在这三者的配合下，我们可以创新很多落地的服务，这就是今天我想重点介绍一下微软在人工智能落地服务有什么样的观点和看法。

神经网络是非常古老的技术，现在能焕发技术，最主要的原因是数据多了，计算大了，层次深了。在人工智能发展过程中，深度神经网络可以分为三类，第一类是传统的深度神经网络DNN，非常简单，把数据拿过来，通过加权不断迭代上去，可以模拟非常大的函数。第二是转积神经网络CNN，它可以去掉图像的位置变化，所以它对图像识别非常强大。第三类是RNN，可以模拟动态的时间训练，把过去的输出当为下一个时间的输入，这样可以描述动态的时间训练。这三个东西各有千秋，都不错，加上强大的数据，基本上可以解决我们现在在感知方面遇到的主要问题。当然，因为深度学习的原因，在过去人工智能研发过程中，基本上是要去寻找新数据的算法，现在因为神经网络这个工具的强大，数据的丰富，和开源工具大家应有尽有，基本上变成了调参数的过程，所以只要有足够的计算资源就可以调出非常强大的系统，当然你不知道为什么它能工作的很好。

另外一个神经网络像东北菜的乱炖，把什么东西都放进去，做一个大杂烩出来，只要有足够的数据，足够的计算，就可以做出相当不错的系统，比如在语音识别这个过程中，环境噪音是非常难处理的问题，现在可以把环境噪音和其他的语音特征一起训练，你也搞不清为什么它能工作，它工作的很好，这就是让我们做信号处理很恼火的事情。同样的，各种人的口音不一样，你讲普通话可以讲不同的口音，音调高度都不一样，没有关系，我们可以吧i-vctor当成一个特征和其他传统的语音特征放进去，可以训练出一套语音对所有人都能适应的系统。所以深度学习神经网络有很多意想不到的优点，就是特征学习非常独特，以前的人工智能模式识别需要做很多特征抽取的工作，现在基本上做大杂烩，只要有计算资源，只要有数据，通过一炖乱炖做出的菜也相当鲜美。

最后我用三张PPT，基本上把所谓人工智能有怎么样的突破总结出来了，基本上就是深度学习，大数据，大计算，再加上三类神经网络模型，DNN，CNN，RNN可以乱炖，做出杂烩非常鲜美，但是杂烩的化学成分什么样子，大家也没有好好研究，这些是有待我们进一步发掘和理解、探索的问题。

我想，剩下的时间给大家做一个简单的介绍，回顾一下微软语音识别是怎么样达到和人一样媲美的水平。在Switchboard研发过程中，大家多在想人识别这样的系统，到底精准度有多高，微软在年把Switchboard的测试系统，通过我们正常的标注，有两套人马通过比较标注，得到的错误率5.9%。IBM今年挑战微软，说你们错误率太高，所以他们在澳洲重新搞了四套人马，重新标注微软做过的系统，他们说人的水平如果花更多的时间，听的遍数更多可以做到5.1%，其实我觉得5.1%和5.9%是大同小异，很多人都不同意到底是5.1%还是5.9%。我们在去年10月份首次达到5.8%的水平，我们觉得达到可以和人媲美的语音识别系统，至少是在Switchboard任务上。我们把三大神经网络系统完美整合起来，我们有10套神经网络系统在并行工作，通过最优组合创造了这个工程的奇迹。就像我刚刚讲的，深度学习基本上是东北乱炖，大杂烩，我们通过10套神经网络并行处理，得到了前所未有的历史性的里程碑，5.8%是我们去年报告的结果，这是一个了不起的奇迹。第一个是在Switchboard的语音识别的任务上，计算机达到了和人可以媲美的水平。在今年年在ICASSP会议上，我们把计算机语音识别和人标注结果，让参加大会的人做一个选择，我们发现50%的人选择计算机，50%的人选择了人的标注，再次证明通过年ICASSP参会者的评价，大家分辨不出是人还是机器学习的结果。

简单介绍一下我们过去几十年人工智能语音识别总的发展情况，基本上就是这样一个状况，通过深度学习，通过大数据，通过强大的计算，我们可以达到前所未有的感知，计算机视觉和计算机语音识别的突破，但是在认知，推理上还有漫长的道路要走。在这样的情况下，我们一直在考虑，我们能给大家提供什么样的服务，你们不需要几十年，几千人的深度人工智能积累，也可以开发出更加智能的应用。

我们在两年前开始了微软认知服务的研发工作，到今天已经有将近30个云计算打包的人工智能服务，大家可以使用，这都在Azur的云平台上，从计算机语音识别到语言理解，知识表达和搜索，还有最新的人工智能的服务，我们都打包到Azur云上去了，所以大家在开发这个简单的程序的时候，不要去

转载请注明：http://www.0431gb208.com/sjslczl/117.html

上一篇文章： Vosk开源语音识别引擎kaldi的开发

下一篇文章：语音识别,发掘呼叫中心钻石矿脉