AI的未来是Cortana微软AI负责人

来源：语言识别时间：2022/7/11

青少年患白癫疯 https://baike.baidu.com/item/%E9%9D%92%E5%B0%91%E5%B9%B4%E7%99%BD%E7%99%9C%E9%A3%8E%E9%98%B2%E6%B2%BB%E6%8F%B4%E5%8A%A9%E9%A1%B9%E7%9B%AE/22039760?fr=aladdin
　　　　　　　　　　作者｜沈向洋　　　　　　编辑｜尾尾　　　　　　不管你承认与否，人工智能的时代即将到来（或许已经到来）。面对这个新风口，技术人应当如何自处，企业又该如何迎风而上？微软AI负责人沈向阳如是说。　　　　　　编者按　　

年5月10日，在刚刚结束了MicrosoftBuild2大会的主题演讲后，微软人工智能及微软研究事业部负责人沈向洋博士（HarryShum）接受了InfoQ等特邀媒体的采访。本文对此次采访的要点整理。

为什么现在人工智能这么火？沈向洋说：“云计算与日俱增的强大威力、运行于深度神经网络的强力算法，再加上今天能够获取到的海量数据，在这三股强大动力的交织驱动下，今天，我们终于有能力实现人工智能的梦想。人工智能拥有无穷的潜力，它有能力颠覆任何现有的垂直行业。”

那么，人工智能当前究竟发展到了什么水平？前进的路上技术难点在哪里？微软的人工智能之路是如何规划的，又是怎样面对人才竞争的呢？

　　　　如何看待人工智能？　　

在回答InfoQ记者提问时，沈向洋博士全面阐述了他对人工智能的理解：人工智能分为感知和认知两方面，感知方面已有重大进展，认知方面的还远远没有获得突破，但可解释的AI将在5年到10年获得重大突破。

　　　　为什么会有人工智能？　　

谈到人工智能，虽然大家在今天会激动的不得了——我自己也觉得——有些东西已经在发生了，但是，首先你要回过头来看，为什么会有人工智能？

人工智能是对于人类智能出来的，也就是HumanIntelligence。后来60年以前约翰·麦卡锡定义一个词叫ArtificialIntelligence，据说是麦卡锡真正提出这样一个智能的定义。

　　　　人工智能分为感知和认知两部分　　

为什么大家会觉得人有智能？其实，人的智能基本上分成两部分，一部分是感知，一部分是认知，而人工智能也是对应的。

　　　　感知方面有非常大的进展　　

感知里面最了不起的、最大的一部分就是视觉感知。

以前有人做过这样的研究，一个人91%的信息是从视觉收集过来的，我忘记了他用什么样的方法算出来这个数字，但大家基本上会同意这个观点：绝大多数感知都来自于视觉，然后是听觉，最后才是其他的感知。

我觉得这边的进展非常大，我一直讲，过去这一年我都在讲计算机语音识别也就是五年的事情，五年之内计算机语音，它可以识别，不管你怎么去讲它都能识别。接下来10年左右的时间我觉得计算机视觉也会达到这一点，今天视觉很多东西已经超过人，人脸识别。我讲的是是很泛泛的普遍认知，到一个新地方，看到一个新东西能够联想到什么，这些东西大概十年左右的时间可以实现。

　　　　认知方面远远没有获得突破　　

在认知方面，今天我们远远没有获得突破，都谈不上跟人类相比的地步。

首先是自然语言处理的问题，然后就是知识获取的问题。越来越多的人更应该去做这方面的工作。自然语言处理，我刚才也提到机器阅读，语言这个问题，相对来讲的确是比较复杂。用今天现有的方法，包括深度学习的方法，解出来的效果还不是足够好，当然用深度学习已经可以帮助到我们很多东西，比如像翻译也用了很多自然语言的东西。

更重要的，今天大家对整个“认知”这样的一件事情的定义，还在一个比较初级的阶段。

例如，什么叫做常识（CommonSense）？你怎么知道见到这个人以后，为什么会对他很有一种亲近的感觉？这些我们还不是很理解，而这是一个很大的问题。

稍微岔开一点讲，很重要的一个问题是，今天我们个人工智能做的这些东西，和脑科学的结合不够，理解也不够。很主要的原因就是对“智能”的很多东西，只有人脑这样一个范本，但人脑结构很特别，今天我们还不够理解。脑科学作为一门科学，今天也还处在一个早期的阶段，我们还不能做太多的实验，也不能随时把一个人的脑袋打开塞一些东西进去。

这个是一个长期的问题，现在越来越多的人也在想这样的问题——连接人工智能和脑科学。

　　　　认知方面，可解释的AI将做出非常了不起的成果　　

有一个方向让我们觉得是很激动人心：现在在微软研究院很多的人在做这方面的事情，我也跟很多大学有一些合作，就是所谓的“可解释的AI”（ExplainableAI）。我认为，ExplainableAI在接下来5到10年，肯定可以做出非常了不起的成果。今天我如果有研究生的话，我就会让他们做这个方向的工作，原因非常简单，因为今天AI最大的突破就是深度学习，但是深度学习的一个最大的问题就是，出来的结果非常好，但是你没法解释。

我自己看到的，这方面写得最好的一篇文章，是最近在《纽约客》的一篇有关医疗AI的。为什么看同一张图，医生会跟你讲，你没问题，原因是一、二、三。但今天AI还做不到这点，深度学习做不到这点，很大的问题是大家解问题的空间不一样，医生是在一个所谓的neural，脑的这样一个连续的空间在解，而AI很多的理解是在符号的离散的空间上去做。

所以，如何把这些东西连起来，从技术上有讲有很多有待突破的地方，也是我们现在研究院很认真在做科研的一个方面。

　　　　微软在人工智能方面的进展　　　　　　语音方面　　

首先，我们讲人工智能在语音方面的突破，人工智能在语音识别，语音合成上面最近都取得了非常瞩目的结果。年9月，微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率低至6.3%的突破，创造当时该领域内错误率最低纪录。一个月后，微软进一步将词错率降低至5.9%，首次达成与专业速记员持平而优于绝大多数人的表现。

　　　　图像方面　　

其次，在图像方面，人工智能也有很多长足的进步:

年12月，ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破，以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻，他们在另一项图像识别挑战赛MSCOCO（MicrosoftCommonObjectsinContext，常见物体图像识别）中同样成功登顶。

在ImageNet挑战赛中，微软亚洲研究院的研究团队使用了一种前所未有的深度高达层的神经网络，这比以往任何成功使用的神经网络层数多5倍以上，从而在照片和视频物体识别等技术方面实现了重大突破，将错误率降低至3.57%。

年10月，微软亚洲研究院视觉计算组的研究员在图像识别MSCOCO图像分割挑战赛中获得第一名，成绩比第二名高出11%，且相较于前一年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。

　　　　自然语言方面　　

除了语音和图像以外，其实人工智能在自然语言上面也取得了很大的进展。

（1）人机对话：自然语言人机对话方面，深度神经网络逐渐取代了传统的统计机器学习，成为主流的研究方向。现在，自然语言技术已全部转向深度学习网络，我们的对话系统也都用到了深度学习网络。大家熟知的微软小冰，起关键自然语言处理技术就是采用的微软自然语言处理技术，目前已经能够实现与人类23个来回的对话。

（2）机器翻译方面，MicrosoftTranslator现已支持60多种语言，可以实现多个人多种语言的实时翻译，比如大家每个人可能来自不同的国家，只要拿着手机APP版的MicrosoftTranslator就可以互相交流。你说一句话或者输入文字，对方听到/看到的就是他的母语。

而在刚刚结束的微软年度开发者盛会Build2上，微软也展示了最新的PresentationTranslator的PowerPoint插件，它利用了微软的TranslationAPI接口，可以在播放演示文稿的过程中，实时地将其翻译成多种语言。

（3）机器阅读理解方面，在由斯坦福大学自然语言计算组发起的SQuAD（StanfordQuestionAnsweringDataset）文本理解挑战赛上，微软亚洲研究院的自然语言计算研究组持续稳居榜首。微软亚洲研究院团队在准确性和相似度这两个不同维度的评价标准上均取得了最优的成绩，其准确度达到了76.%，相似度达到了84.%，高出第二名近两个百分点。

　　　　微软的人工智能科研之路　　

任何一个企业，一个单位，特别是大了以后，一定要去想短期的目标是什么，长期的愿景是什么，一定要从这个角度去想。我的部门比较特别的地方就是，因为我除了AI以外，还管AI研究院，在AI研究院我们有多位科学家，要不断培养一代一代新的了不起的研究员去做更为了不起的技术。

　　　　微软在人工智能领域四个研究大方向　　

第一，搜索引擎方面。今天世界上最大的人工智能可能还是搜索引擎，微软Bing这么多年下来超过25亿的entity。这里面就有很多的知识，搜索引擎本身不仅仅是一个业务，虽然现在Bing也很赚钱，我们在美国22.6%的搜索市场份额再加上雅虎的11%（技术是我们后台做的），所以我们在美国有1/3的搜索份额，在中国最近涨到16.5%。从AI的角度来讲，它就是知识的积累。

第二，非常非常重要的一件事情就是Cortana（小娜），我觉得Cortana是代表了AI的未来，对人的了解。要做好AI需要三个方面的知识：

对世界的理解

对工作的了解

对用户的了解

这三件加在一起的话，才可以做的非常好，我觉得小娜在朝着这个方向走，要去做这个事情当然要有很大的投入在里面。

第三，其他的公司和微软公司一起合作，怎么样令AI帮助微软转型，我刚才提到Office，也提到Cloud，也提到Windows，我们一起做。同时我们把这样的一些技术拿出来给其他所有Microsoft开发者去做，今天我讲的终点一直都是在我们AI部门这么多年做出来，有很多的技术是从微软研究院做了几十年下来。

第四，对商业机会的挖掘。所有的商业应用都会被颠覆掉，在这里面微软正在选择哪些方向，哪些商业的AI这样的机会我们会挖掘，以后希望能够有机会跟大家再分享这边的进展。

　　　　长期培养人才进行科研　　

任何一个企业，一个单位，特别是大了以后，一定要去想短期的目标是什么，中期的希望是什么，长期的愿景是什么，一定要从这个角度去想。我的部门比较特别的地方就是，我除了AI以外，还管研究院。在研究院我们有多位科学家，刚才新智元的同事也问道，我觉得最重要的就是，要不断培养一代一代新的了不起的研究员，去做更了不起的技术。

例如我刚才提到，人工智能（更多在离散的空间做符号处理）和脑科学（更多在Neural神经元做连续处理）这两个空间的融合。符号可解释的空间和连续的脑空间之间的关系，三五年前基本上没有什么人研究这些方向。我认为更重要的就是应该培养新一代，看到这样的问题。如深度学习，要去解释它。

　　　　微软的人工智能产品之路　　　　　　为什么一定要有产品？　　

对普罗大众来讲，他不会去看论文来判断你的研究成果，也不知道你的论文有多了不起。你要跟人解释，最容易解释的方法就是你给人看看你的产品，HoloLens马上就会被人看到，我们希望有机会做一些更了不起的产品，不光是对消费者，更多是针对企业用户的产品。我个人认为，三五年内，对AI而言最大的机会还是在企业市场中。

　　　　正确看待科研　　

很多人不明白，说这么多人做科研，怎么还没有产品化？科研就是一个很长期的东西，你要么就不要说自己做科研，要做科研就要有耐心。比如今天大家谈的热火朝天的量子计算，具体哪天量子计算机可以做出来，没有人知道。在这一点上，美国的这套系统还是值得我们学习：从大学开始，到研究所，再到工业界。以前的ATT和IBM，再到现在的微软，很多公司愿意花很多的钱出来做长期的科研，而绝大多数的科研成果不仅仅属于本公司，只是自己的公司有可能得到利益。

这一点我们盖茨讲得非常清楚，比如苹果和微软早期的成功，很重要的就是图形用户界面，而graphicinterface最早是施乐做出来的，我们跟他们学习。同样，今天微软做了很多了不起的事，但是可能其他一些公司，甚至一些初创公司还会做得更好，这都是很正常的。

而且，做科研是非常愉快的一件事情，做科研最愉快的事情就是根本不用担心别人在想什么，你自己拍拍脑袋想想就可以，要有一个了不起的想法——我以前是多么的享受做科研，后来被鲍尔默赶出来去做产品。

　　　　如何从技术研究到产品化　　

当然，我们不是一个公益的研究院，对公司是有责任的，包括最重要的一件事情，就是从技术到产品的转化。目前，AI本身今天很多的东西还在研究阶段，所以今天微软重组，把AI和研究院放在同一个部门——我觉得非常荣幸能够领导这样的部门——我们看到了非常多的机会。

怎么从技术到产品转化这个问题，可能今天最好的例子就是认知服务，其中大概2/3的技术是原来微软研究院做的，而且做了很多年，以前我们不是很清楚，一些计算机视觉的技术怎么转化成产品。但是因为有Azure，有认知服务这样的机会，很多很多的微软研究院的技术，都已经通过认知服务转化成为产品。

另外一个例子是HoloLens，它研发的过程是“研和发，研和发”不断循环的过程。HoloLens这些人之前就是做Kinect，Kinect做出来微软研究院就做了KinectFusion，又做了一个项目叫Holodesk，如果是三维的东西，你怎么样加一些三维的虚拟物体进去。后来微软有一批非常了不起的做产品和设计的工程师，他们想到要在此基础上做成HoloLens，在这个过程当中，里面很多计算机视觉、语音的技术都是微软研究院一起做的，是一个共同研发的过程。

　　　　AI部门的产品规划　　

可以挣一些钱，定个小目标，这是非常重要的。但是，更重要的事情是AI这个部门成立之后，我们要想清楚如果我们真的觉得AI会颠覆更多的行业应用，在颠覆的过程当中，我们的机会在哪。

　　　　对现有产品AI化　　

比如Office等跟AI结合，将会有哪些颠覆性的内容产生，有什么新的产品出来，有什么新的功能出来，这边的话我们进展得非常好。

AI的三大方面：第一，你要有非常强大的运算能力；第二，你要有非常了不起的算法；第三，你一定要有自己的数据。

我用微软的例子来介绍一下，在微软，我们当然相信，微软所有的产品都必须要AI化，重新去定义这样的产品。

我们现在很注重的地方是两个方面，一个是在所有的Office产品，在主题演讲中我给大家看了PowerPoint一个功能，就是翻译（translate）。其实PowerPoint他们还做了另外一个，我自己非常喜欢的，所谓的图说生成（imagecaption）：来一张照片，PowerPoint图说生成可以自动给你出图片说明，这个我们已经做得相当好了。

PowerPoint很多人用。这样的数据可以帮助我们不断改善一些算法。前不久我们也发布Word，Word里面使用AI技术，这也非常非常重要。

这里面还有很多AI的技术都才刚刚开始，我自己觉得Office最激动人心的技术就是所谓的机器阅读。前不久微软买了一个加拿大的初创公司叫做Maluuba，主要就是做这方面的工作，用自然语言、深度学习的方法来做这个东西。深度学习里面一个很重要的问题，就是回答问题。我觉得对Office的影响会非常巨大，所以我们AI部门的同事和Office的同事一起在做。

另外一个就是在云这里，大家合作非常多，你到Azure.

转载请注明：http://www.0431gb208.com/sjszlff/756.html

上一篇文章：深度专访微软研究院人工智能首席科学家邓力

下一篇文章：涨姿势人工智能原来是这样啊