毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

深度专访微软研究院人工智能首席科学家邓力

来源:语言识别 时间:2022/7/11

机器之心原创

作者:赵云峰

邓力,微软研究院人工智能首席科学家,美国IEEE电气和电子工程师协会院士。年,邓力凭借在深度学习与自动语音识别方向做出的杰出贡献,荣获IEEE技术成就奖。邓力首次提出并解决将深度神经网络应用到大规模语言识别中,这一实践显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。

在阿尔法公社举办的「AI领域跨越技术/产业/投资」及他在IEEE-ICASSP得奖之后的聚会上,机器之心有幸对邓力研究员进行了一次深度专访。邓力介绍了自己和微软研究院在做的关于人工智能的数项研究,回顾了自己在人工智能和语音识别领域的研究历程,并深入分析了人工智能领域的研究现状和未来发展,针对无监督学习等人工智能难题提出了自己的研究思路和解决方法。相信邓力的精彩分享将会给人工智能从业者带来巨大收获,其对人工智能的深入思考和研究理念也会给大家带来宝贵的灵感和启发。

微软研究院人工智能首席科学家邓力

一、目前所做研究:人工智能算法、大规模商业应用以及各类人工智能方法的整合

很多实际问题不是非黑即白的,而是有很多中间状态,我们在做一些比较大型的研究,将很多层神经网络(包括时空上联合的深层)与其他方法结合起来去应对这些不确定性。

机器之心:您能否介绍一下目前在微软研究院做的人工智能方面的研究,您在语音识别领域获得了巨大成功,除此之外还在做其他方面的研究吗?

邓力:总体来说,人工智能的各项研究我和我在研究院的团队都在做。首先,语音识别和语言模型我做了很多年,图像描述(ImagCaptioning)和有关多媒态近年来也在深入研究。图像描述就是给出一个图像,机器可以写出语法标准的句子来描述它,而且相当准。我的一支团队去年用了一个类似于「图灵测试」的方法进行测试,结果有32%的情况大家分不出哪些是机器自动写的,谷歌同类系统的结果是31%,和我们差不多,人类是67%,这个技术在若干年后可能会达到人类水平。

微软研究院的「图像描述(ImagCaptioning)」,来源:邓力在IEEE-ICASSP演讲用的PPT和微软美国研究院CVPR-论文「FromCaptionstoVisualConcptsandBack」。

其次,我们现在做算法方面的研究比较多,包括语音识别和自然语言理解算法、增强学习算法等,以及如何将增强学习和其他机器学习方法整合在一起;如何将生成性深度学习和无监督学习进行融合,等等。

第三是涉及人工智能在商业方面大规模实际应用。我们在研究具体问题要用什么样的深度学习和人工智能方法来解决并怎样采用最有效的方式。

而最重要的研究方向,是如何将大数据、深度学习以及人工智能各种方法整合在一起,使得机器学习和人工智能更加有效,而且对数据的要求也不能大到现实应用场景提供不了的地步。

总之,不管是方法研究还是应用研究,我们都是在做一些比较大型的和前沿性的研究,比如如何将很多层神经网络与其他方法结合起来去应对解析性(xplanability)以及应对各种不确定性(uncrtinty),因为很多实际问题不是非黑即白的,而是有很多中间状态,如何将这种概念与神经网络结合起来,人工智能在这方面的研究还做的比较少。但现实世界中其实有很多的不稳定性和不确定性,如何在这种不确定的情况下做出最优决策?这就需要将深度学习其他方法整合在一起,然后才能做出适合真实世界的各类人工智能应用,包括语音、图像、自然语言、翻译,商业数据分析和insightdistillation等。

机器之心:长短时记忆模型(LSTM)在研究中是否发挥了很大作用?

邓力:是的,我们是在使用这个方法,但我认为目前的长短时记忆模型还不够,它实际上还是个短时模型,用比较简单和非严谨的方法把「短时」(shorttrm)慢慢加长,但加长一段时间之后通常不够有效,所以还需要其他更严谨的方法,包括记忆网络(MmoryNtwork),神经图灵机(NuralTuringMachin)等。这些都是很有效的方法,我们目前也在研究比这些更进一步的方法。

机器之心:您平时会思考一些人工智能哲学方面的问题吗?比如说机器意识之类的。

邓力:我觉得机器意识离我们太远了。我与其想那些,还不如多花些时间在深度学习算法和架构研究上,刚刚提到的无监督深度学习就值得我花大量时间去研究了。

二、个人的人工智能研究历程以及与GoffryHinton的合作

这是当时我和Hinton合作研究的一部分内容,把隐马尔科夫模型和深度神经网络结合起来,并取得了比较好的初步表现。

机器之心:您本科是学神经科学,后来是如何进入到人工智能领域的?能否介绍一下您和GoffryHinton合作过程吗?

邓力:我在中科大本科学习神经科学和物理学,后来到美国研究听觉神经系统与其计算模型。年底还在做博士论文的时候,我用物理模型和神经模型来做听觉模拟,但当时的神经网络算的太慢。当时我也尝试过把生物模型的特征提取出来丢到隐马尔科夫模型里,结果很不理想,因为它们不是成熟的能够相匹配的系统。后来我发现纯统计方法更有用,从80年代中末期到深度学习出来之前,我做了很多研究,包括计算人工神经网络。但到了90年中末之后贝叶斯统计模型更加流行。

-年左右还在加拿大滑铁卢大学当教授的时候,我和我的一位博士生合作了一篇非常漂亮的论文,当把线性的项加到非线性的项之后,可以增强神经网络的记忆能力。并且我做了很多数学上比较严谨的分析为何记忆能力可以增强。那时电脑的计算能力不够,模型做的很简单,但这是一套完整的系统,但当把这个结果真正用在语音识别上时,却还是没有大大超过隐马尔科夫模型的方法。

那时,我为这个博士生论文答辩找的ExtrnalExaminr就是GoffryHinton,他过来后看到我们的研究就说神经网络真是太难了。但这个博士生还是拿到了博士学位。因为这次的研究结果,我就很长之后不做神经网络研究了,开始完全转向贝叶斯统计方法和生成模型(GnrativModls)。

现在大家因为深度学习对Hinton和神经网络比较

转载请注明:http://www.0431gb208.com/sjszlff/750.html