北京看白癜风什么医院好 https://wapjbk.39.net/yiyuanfengcai/zn_bjzkbdfyy/雷锋网按:在外界看来,阿里iDST是一个神秘的部门,大家知道里面聚集了很多技术大牛,但是对这个部门真正在做的事情,以及其在阿里集团内扮演的角色却不一定清楚。为此,雷锋网对阿里iDST的语音专家鄢志杰博士进行了专访,带大家了解有关阿里iDST的事情,以及他们是如何看待当下最火的一些AI产品的。鄢志杰简介鄢志杰,阿里巴巴iDST(InstituteofDataScienceandTechnologies)智能语音交互团队总监。在年加入阿里巴巴前,就职于微软亚洲研究院,任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室,获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文,长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利,目前是IEEEseniormember。iDST智能语音交互小组在做哪些事情?雷锋网:阿里iDST部门智能语音交互小组主要负责什么?鄢志杰:我们这边是智能语音交互的,包括几个部分,通常我们讲语音进和语音出。语音进就是语音识别,识别成了文字以后,就进入到我们的对话系统里,做这句话的理解。然后通过对话的形式把想要的东西传给你,方式就是以语音的方式用机器播报出来。比如明天天气怎么样,它理解了这个话,然后通过对话系统从远端的天气服务拿到天气的数据,然后播报。我做狭义的语音相关的东西比较多,比如语音识别、合成,还有通过语音做一些说话人识别验证,包括怎么把语音在设备上落地,等等。现在我们也把语音技术在阿里云上对外输出,这些都是我自己做得比较多的。雷锋网:最近你们在做什么研究工作,有什么进展或者发现?有两个方面:1、自然语音交互平台。我们觉得往后,各种智能设备,电视、机器人等等,在家里或工作场景的智能设备会越来越多,这些设备没有键盘和触摸屏,所以需要比较便捷的方式跟互联网连接,它们本身会成为互联网的入口,这当中语音肯定是一个比较重要的模态,可以跟它们交互。交互的目的是什么呢?是取得互联网上的各种服务,包括查天气之类的信息服务,还有比如点个外卖叫个车,是一种有型社会的服务;还有一种是内容,好比说我在电视上看某一个电视节目,谁跟谁主演的电影,这种就是网络上的内容,包括音乐、视频。要达成这点中间当然会要有我们所做的这套东西,就是使得用户的意图通过语音进来,转化成对网上各种服务的需求,然后系统理解了以后带给用户。这就是我们叫作智能语音交互的一个平台。总结一下就是,它是连接多端,跟互联网上广泛的服务对接,作为中间桥梁作用的这么一个东西。2、所有这些语音能力都会通过阿里云输出。鄢志杰:比如说我们有语音识别的能力,我们的合作伙伴就可以拿着这个能力去做具体的语音识别应用,例如说我们在客服和司法直播等领域,发现有很多语音转文字(文字转语音)的需求。我们最开始做这样的能力,完全是从阿里内部客服中心的需求来出发的,因为阿里每天淘宝、天猫和支付宝有很多的客服电话。之前在接服务电话时根本不知道服务质量什么样,说得不好听的,小二如果今天心情不好,骂了客户几句,根本没办法知道,原因是抽检的录音需要人工去听,那个比例是很小的。同时传统的客服中心其实有很多需求,(他们)希望知道客户每天在问什么,什么样的问题是最近遇到的最严重的问题,所有这些之前只是沉睡在那个地方,没有办法得到挖掘。我们一开始团队做的就是客服的任务,把语音转成文字,后续有很多好玩的东西可以来做,像发掘用户的心声,还有知道小二的服务质量有没有保证。很有意思,像这样的能力建设出来以后,从阿里的角度讲一定是要放到更大的平台上去帮助别人成功的。我们总是讲说阿里主要是个平台公司,所以说这样的能力一旦放出去,我们生态里的合作伙伴就可以在别人的客服当中去搭建这样一个东西。把语音转成文字,做同样的事情,甚至有人会开发出客服机器人,放前台来自动回复用户问题。在司法领域也是一样,现在有合作伙伴拿着我们的能力放到法院里,代替书记员的作用。包括像直播,识别主播在说什么违规的东西等等。总结一下,第二块事情就是怎么把我们的能力通过阿里云对外输出,帮助我们的合作伙伴去做具体的业务。雷锋网:最近有什么突破性的进展和发现?:我通常不大爱用突破这个词,因为这个行业实在是太浮躁了,芝麻小点的事都会被很多人说成是突破。我觉得我们还是比较低调跟务实的。虽然我们各种各样的技术其实是非常领先的,不过毕竟我也是从学术界来的,所以说比较注意这方面的东西,进展的话,讲一个例子,我们一直以来语音识别有一个重要的模型叫声学模型,就是来模拟a,o,e,b,p,m,f是怎么发音的,这个也是提高语音识别准确率的重要手段。我们一直以来是从学术界吸收最新的成果,同时在工业界大规模的问题上把它真正发扬光大去解决真正的问题。latendycontrolled的BLSTM模型在15年的时候,我们第一个上了latendycontrolled的BLSTM模型,叫LC-BLSTM模型,这个东西学术界研究比较多,但是工业界第一个上线应用的应该算是我们。传统BLSTM模型很慢,必须要等到一句话说完了才开始去做解码,得到结果,就造成说完这句话后要等很久才能拿到结果,这当然是坏处,但为什么大家还是那么着迷呢,因为好处是精度特别高,准确程度高。我们做的工作就是能够把识别的延迟降下来,使得它能够在边说话就边解码,而不是像以前一样,要等到这句话结束后才能够进行解码,达到一个既快又好的效果。BLSTM进一步提升了LSTM类模型的建模能力,图片来源:薛少飞,iDST语音专家Lowframeratelatendycontrolled的BLSTM后来我也发现一些同行,例如说16年底时同样的模型他们也逐渐在上,在这之后其实我们一直在延续这条路发展,去年有个比较好的工作,是在这个基础上发展出叫LowFrameratelatendycontrolled的BLSTM。原来语音识别的帧率大约是帧每秒,每秒钟要计算个frame,运算量不容忽视,所以我们去年有一个方法叫Lowframerate,把帧每秒的速率,降到三分之一,相当于同样是1秒钟的语音,处理起来只需要原来运算量的三分之一了。同时保证了跟以前一样甚至更好的精度。我们很快把它送到我们的线上,取得一个比较好的效果,今天我们一台服务器,能够支持比以前更多前发的线数。刚才提到我们把这个能力去输出,输出对我们的合作伙伴来说成本是非常需要考虑的因素,以阿里这么大的体量,任何一件事情进来以后,客户一多起来,机器的成本是一个重要的因素,语音识别本身又是一个比较耗成本的东西,对机器要求很高,有一个三倍的提升的话,直接把它变得更加普惠了,大家使用的门槛就大大降低了。3月23日,阿里巴巴公布“NASA”计划雷锋网:上次马云颁布NASA计划时,我们应邀解读了一篇,后面我们采访闽万里博士的时候,他强调了AI+应用结合的侧重点,这是不是后续阿里AI相关的研究部门或者小组,比如iDST智能语音交互小组会跟应用相关的部门合作会愈加加强的一种趋势?:我一直觉得阿里是一家比较讲究落地的公司,我们一直跟具体的业务落地结合比较紧密,我觉得NASA更多是表明了一种阿里的决心。因为阿里的业务实在是太成功了,某种程度上掩盖了技术的光芒,因而要去让大家更多觉得阿里是一家技术驱动的公司。AI这个东西,外面很喧嚣,但我觉得我们没有任何的改变,我们从来也不会特别地刻意去讲AI,我们把所有跟AI相关的技术,从到底能够对我们的生活,对阿里的合作伙伴,对整个社会,带来什么样的有益的帮助这个角度去思考。你可以说(我们是)不太吹牛,更多的务实。讲到业务落地,一个好的AI,到底能给我们的业务带来什么样实实在在的帮助,而不是说只是为了提升我们的股价,或者讲一个故事。如果说这些AI能够用到客服中心去接我们客户的电话,直接用机器解答一些FAQ,那不仅减少用户排队的时间,同时能让我们小二的人力省下来,真正机器答不了的问题,再转到小二那边由人工解决,而不是空泛说用机器人全部搞定,这个现在也不现实。所以有人说什么AI取代人,我从来不这么看,我觉得这些东西一定是帮助人的,让用户体验更好,小二这一侧工作强度更低,更少的人可以支持更多的客户。这个是它发挥作用的地方,而不是现在就去谈取代人。“既要、又要、还要”雷锋网:iDST语音部门的的定义是什么?我看知乎上有说,是为业务或者产品形成迭代支撑的技术研发部门;有明确的业务需求推动他的产生;也有通过技术部剧推动业务进展的期望;由于直属王博士这个天然属性,会在很大程度上用一种科学的方式推进公司技术驱动化。这些说法成立吗?:前几天我去谷歌搜索iDST,打开前几个搜索结果看了看。第一我感觉我们蛮低调的,并没有一些铺天盖地的宣传报道,搜索出来的信息也极为有限,蛮神秘的。二是感觉很多报道其实我在内部看来是完全错误的。所以就像您说的,对iDST本身会有不同的解读。我觉得,这样挺好的,也没有什么问题。回到您的问题:iDST现在到底是干嘛的?阿里有一句土话叫“既要又要还要”,就是说阿里的目标通常是比较多元化的,多元化就意味着你在各个方面都要起很高的目标。既要第一个目标就是支持好阿里的业务和阿里生态里的合作伙伴。他们要去做一个业务,一定对我们的智能交互技术有他们的想法和需求,例如说我想要有一个聪明的机器人,说什么都能懂,这些核心技术我们一定要支持好。技术在输出时,伙伴要求说你的准确率必须是市面上最好,这些需求我们都要去支撑,这是第一个任务。又要我们不是简单地说把这些需求满足好了就OK,又要说这些技术是有先进性的,不仅是做到跟市面上最好的一样好,而且在一些方面有自己的特色跟亮点。还要我们现在在支持那么多业务的同时,还在写paper,在国际的语音顶级会议、杂志上去露脸,赞助学术界的一些活动,与学术界建立比较好的关系。所以说是不能光商业上做得好,还要技术上要有说道,甚至在将来能够起到一些引领的作用。这个组织因为积聚了不少的博士,团队来自各大公司的专家挺多的。我们从学校雇最好语音应届博士生,一定是在这两个方面有好的输出的,偏废哪一个都是不行的。好比说光做研究没有产出,基本上很难讲研究有多好;光做产出没有研究,也许就顾得了当下却失掉了未来。我们就是一个结合的部门。发paper是一个副产品,是在持续想怎么push工业界做大规模任务的边界,这当中会产生一些副产品分享,现在整个语音产业大家还是比较乐于去分享自己的东西,各大公司都如此。但我们并不是以写paper为目标的。雷锋网:iDST招人方面有什么自己的特殊方式?(外界一致所知甚少):首先,语音圈是一个特别小的圈,外人很难说立一块牌子就说我今天要做一个语音团队,我投入很多。如果是外人的话,很难去做这样的招聘,所以我们此前的招聘更多还是从圈子里的口碑,以高手吸引高手的方式来招聘,虽然我们也挂了大广告,但很少有人是看了广告直接就来的。说实在这个圈子实在太小了,大家互相都认识,更多是靠我们自己圈子里的口碑,大家知道你们积聚了一类什么样的人,就能闻到你这个团队的风格,跟他想去做的事情以及做事的方式。然后认同这样的价值观的人,就会自然聚拢过来,更多是以这种方式。阿里招人要求很高,同时我们也不crazy,不会因为你是所谓的AI我们就一掷千金来求人才。因为我们还是觉得这样的人才靠这个东西不可持续。所以说可以看到我们团队的人都是这种性格的,就是踏实做好工作,不太张扬,虽然有机会的时候也不怕去露脸,但总体来说还是不那么吵吵闹闹。举个例子,当所有人都在号称自己的语音识别准确率95%、97%、99%的时候,我们是也许不多的一股清流。之前我们陈一宁有一个文章采访他,他旗帜鲜明地喊出了语音识别的准确率脱离场景去谈都是耍流氓。我们讲的95、97、99,是在非常受控的环境下一个普通话相对比较标准没有多少口音的人,说一些比较固定的内容。在不好的场景下,像我们在这么一个有混响的房间里,大家在激烈地争论,有的人还有点口音,那么很容易就做到很糟糕,到文字出来看不懂程度。雷锋网:网上有说你们通过举办比赛来获取人才,这也是一种方式吗?:对,阿里首先有一个实习生的项目,内部有一些比赛,像我所知道的,像天池大数据竞赛,都会有这样的学生来比参加,拿阿里的一些数据,把一些奇思妙想在这样的数据上去做验证。我们也有像阿里星这样的应届毕业生计划,对于个别好的,我们叫A+的学生,面试完了可以直接到我们Lab的Leader的level去面谈,很多人成为阿里星。比赛的话,我想在语音特别是交互这方面很有可能会有类似的事情去做。雷锋网:网上我们只搜到一条阿里云iDST人工智能打败全球速记亚军的消息,里面有谈到阿里云iDST智能语音团队拥有世界一流的专家团队,此次年会展示的研发成果只是冰山一角。能否介绍一下这个专家团队的实力?:怎么谈这个实力呢,首先讲几个方面吧。第一个方面,来源比较广泛,聚齐了此前几个组的精英力量,包括咱们有微软来的不少同事,国际上有一个做得最大的语音技术提供商叫Nuance,这方面的同事也越来越多了。我们还有来源于百度此前语音部门的同事,有科大讯飞的毕业生,还有高通语音方面的专家,尤其在麦克风、智能电子信号处理这方面,等等。这些就是来源广泛。第二个,博士、海归的比例很高,这个我们算不算是精英团队的表现(笑),也许吧,反正自己也不大当回事。还有我们地域分布也是很广泛的,北京、杭州、西雅图,都是语音重镇,所以也更加多元化了。最后,还有一点就是同学们的背景跟出身也是比较广泛的,有的人是从学术界,或是工业界的研究院出身的,有的人是从工业界产品部门出身的,工程能力强,不管是做云端的服务还是设备端的落地的东西很强。整体来说我们做到了把所有这堆人拢到一个团队里。说起来简单,但在大公司里做起来很难。大公司有的说我是做算法的,是工程的,产品部门,整个是有藩篱的,一旦有组织界限以后,这件事情就变得隔了。跨部门,做算法的做算法,做产品的做产品,很难产生正向跟反向的反馈,我们在建立这个团队之初就极力在避免这样的事情。包括我们三个办公地方,从来没有因地域而分任何事情,比如西雅图做什么,北京做什么。而是一个项目立起来后,三地的人都有可能会参与。这样不会使得整体做着做着就分隔了。所以地方也好出身也好,大家的擅长也好,都融为一体,这样子能够把反馈闭环做得比较好。从技术到产品,要注意的坑和细节雷锋网:从你们这个小组产出的成果,要应用到阿里巴巴内部某个场景时,一般会遇到哪些问题,如何解决?:阿里来说,尤其在阿里云来讲,基本上内外客户是完全不分的。阿里作为一家大公司内部的需求肯定是很旺盛的,当你去满足内部需求时,会发现这个事情干起来好像很容易,因为内部需求实在太多了。挑挑捡捡总有能够搞定的,总能够完成一些KPI,但外部就不同了,外部是一个真正的市场竞争,真正的好技术一定要得到外部的认可,活下来,并蓬勃生长,才是真正比较健康的输出。所以说,阿里云始终是不太区分内部外部的,而不是只在内部温室里活下来。所以,困难我觉得是说一个技术到一个产品,到一个好的产品,是有巨大的鸿沟的,不见得说有一个好的paper。好的算法大家也的确认可,但未必能造就一个好的产品,这里面有太多的细节、坑去打磨。同时,客户一定有不切实际的需求,我今天巴不得有一个像真人一样的机器人,但技术是有它局限性的。我们做技术的人,在落地的时候能够去弥补这方面的东西,我觉得是特别重要的。一个是说技术的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎么样去跟合作伙伴达成共识。说这个产品需要这样那样的技术,指标是什么,既能够实现,又是跳着可以够着,而不是说完全够不着的东西。当然,真正做一个产品,是一个全方位的技术,不是一个技术点好了就能一招鲜吃遍所有的东西,这是不太可能的。像我们语音来说不管准确率,响应速度怎么样,对一些奇怪的Case,奇怪的问题,当你明知道答不出来时,仍然能够显得很智能,而不是说只是一个对不起再试一遍吧,等等。最主要的还是跟合伙伴和客户去定义技术能够实现的产品的边界,能够从产品的细节上来讲,真正把一项好的技术落地下去,最终产生一个真正好用的产品,这个是比较大的困难。雷锋网:具体比如阿里集团客服,中间遇到的问题,以及怎么解决?:客服对于我们来说
转载请注明:http://www.0431gb208.com/sjszlff/8096.html