封面新闻记者朱珠摄影记者杨涛刘陈平
11月16日,封面新闻在成都主办的“智创未来C+移动媒体大会”上,阿里巴巴人工智能实验室北京研发中心负责人、首席科学家聂再清发表了题为《智能语音交互与未来媒体》的演讲,他就下一代人机交互方式和信息传播的方式进行了分享。
聂再清提到了语音交互在未来的重要性,他表示阿里巴巴人工智能实验室致力于打造下一代的人机交互方式,让机器不仅拥有计算能力,还拥有知识、推理能力,以及行动力。
聂再清认为,智能语音是一种新的连接方式,也是一种新的媒介通路,“我们希望通过AliGenise开发平台接入天猫精灵,让每一个硬件都可以获得语音交互的能力,这样新闻信息的传播就多了更多的触达用户的地方。”
对于怎么让各行各业都参与到人工智能的建设中来,怎么让用户语音交互的成本降低,让每一个行业都有可能加入,而且从中获利?聂再清在演讲中介绍了阿里巴巴人工智能实验室发布的AliGenise的开发者平台,“在这里我们能提供各种各样的服务,比如说语音唤醒服务,语音识别服务,声纹识别服务,还有语音合成服务,如果一个开发进来,其实只需要调用我们这些服务,就能很容易的接入到我们天猫精灵的入口。”
最后,聂再清分享了对于人工智能的思考。他表示人工智能的目的是帮助人,而不是代替人,不是对人类的威胁,更多的是将人类从重复性的物质文明的建设中解脱出来,更多的建设精神文明,有更多的时间来创造。
以下是演讲全文:
大家好我是聂再清,来自阿里巴巴人工实验室,我今天很荣幸来到封面传媒的智创未来,和大家一起探讨智能语音交互和未来媒体。我先介绍一下阿里巴巴人工智能实验室到底是干什么的?很简单,我们就想打造下一代的人机交互方式,这是我们的VISION,我们的MISSON,是让机器不仅拥有计算能力,而且拥有知识,推理能力,以及行动力,我们提高我们的计算能力、感知能力和认知能力。我们认为到地下一的人机交互方式和信息传播的方式到底是什么?
我们刚开始用的是键盘,键盘之后我们开始使用更多的图形界面、鼠标,有windows,再使用手机和触屏,现在我们希望听语音,天猫精灵的方式就能给你听音乐,就能听新闻了,所以在信息传播的时候,相对的我们可以知道,刚开始我们大家都在用,我们刚开使用传统的报纸、电视、收音机,我们可能开始使用了网站,使用互联网看新闻,现在大家更多的用手机,天天低头在看手机,我们希望以后让你抬头,不一定需要低头,你在开车的时候可以给你弄新闻,你家里的音响就可以听新闻了,这时候我感觉我们在下一代的信息传播当中,能让你在各个硬件都有可能成为一个传播的媒介。
为什么语音交互变得那么重要?我们发现现在的技术可以解决我们很多日常的生活需求,打一个比方说早上起床,很多时候我都不想打开灯,我就想知道几点了,我甚至都不想睁眼,我可以问天猫精灵现在几点了,或者天猫精灵打开窗帘。比如我在车上希望看一下有什么会,我就可以问天猫精灵,他就给你读出来了。有时候你的手很不方便,他就给你的手释放出来了。你在酒店也可以用语音直接和他交互了,你睡觉的时候不想关灯了,你就直接说关灯,来一段轻音乐。我们可以感觉到语音交互已经能进入到我们的日常生活当中。这个东西现在是不是说有就有了呢?其实我觉得还需要各行各业的人跟我们一起,把每一个细节,每一个体验都做好。打一个比方说,如果喜马拉雅听音乐、他们把每一个细节都做得非常好的话,我们语音交互的入口就可以做起来,现在已经有很多基本的东西可以使用了,如果你们买了我们的天猫精灵的话可以体验一下。
其实可以感受到,大家有没有感受到天猫精灵的热度,我们在“双11”9个小时卖了万台,现在中国的智能音响市场已经突破百万。我是希望大家越来越多的体验我们天猫精灵,我再来讲一讲我们为什么跟这个会很相关呢?只能语音是一个新的连接方式,也是一种新的媒介通路,我们希望通过AliGenise开发平台接入天猫精灵,让每一个硬件都可以获得语音交互的能力,这样新闻信息的传播就多了更多的触达用户的地方,你在车上可以跟你交互,跟你传播,你在家里音响,你在酒店什么地方都可以通过这个传播,未来的传播在语音交互这一块一定会影响它的发展。
我今天讲讲到底我们怎么让各行各业都参与到我们的建设当中来,我们怎么让进入我们语音交互的成本降低,让每一个行业都有可能加入,而且从中获利。我们也有发布一个AliGenise的开发者平台,在这里我们能提供各种各样的服务,比如说语音唤醒服务,语音识别服务,声纹识别服务,还有语音合成服务。如果一个开发进来,其实只需要调用我们这些服务,就能很容易的接入到我们天猫精灵的入口。
在这里面,我更多负责是语意理解,我给大家详细讲讲语意理解这一块,到底有哪些难度,到底是做什么的,到底怎么让开发者进入,而且我觉得语意理解是我认为非常难的人工智能的一部分,我等一下给大家讲为什么。语意理解是干什么事情呢?我们想象用户给天猫精灵说明天杭州天气怎么样,成都天气怎么样,我们的天猫精灵需要理解,到底这个用户是想做什么。其实用户的意图是天气预报,如果知道天气预报以后,他要知道到底哪一个地方的天气预报,什么时候的天气预报,我们把这个叫做实体槽值,这个时间是10月18日,地点是浙江省杭州市,这样一个槽值和意图的理解,我们分别由两个名字,一个叫意图识别,第二个叫槽填充中文,把任何一个自然语言的句子变成一个意图,能理解的意图和把这个参数表填进去,填了这个表以后,我们其实就可以交给我们的对话引擎。这个对话引擎是干什么的?把这两个值,它要调用一个第三方的服务,或者是自己的服务,查到这一天的天气预报,查了以后他还会说一句话,杭州这一天晴,温度多少,然后他用语音回复,这样的信息就生成了,开发者就可以把这个信息接回来了,用语音跟用户交互。
这样的语意理解好不好做?第一是自然语言的多样性,其实同样一句话用户有很多方式发问,我想明天天气怎么样,告诉我18号的天气怎么样,你知道明天适合出去玩吗,明天会下雨吗?他希望我们的用户理解对,理解错了他觉得这个机器太不智能了。如果你有很多语调的情况下,你都知道这个用户的这种话的情况下是没有问题的,是可以训练一个机器学习的模型来做。但是很多时候可能没有那么多语调,这个应用开发者刚刚开始,就算你已经跟用户交换了很久,用户因为有隐私的问题,他不希望你标注,这种情况下你可能都没有语调。因为大家对天猫精灵的期待很高,而且很多情况下,现在大家有没有发现NLP和知识图谱的专家都很难找,每一个事情让专家来做的话很难找,因为没有那么多专家,所以我们AliGenise解决方案最主要的思路是什么呢?我们是希望任何一个开发者都能够,他不需要有很高的自然语言理解的知识,也不需要是一个机器学习的专家,我们都能够做很好的语音交互的技能。
我们提供好几种方案,第一种叫标准技能,用户只需要说我有一个创意,我把我的数据传上去,自动就能理解用户的意图,因为我已经把意图理解好了,这个模型都在,只需要上传数据,如果你还想做更多,我想定制更多的,这时候我们有两种方式,一种是基于规则的,帮你怎么进行标注,还有一个是基于深度学习的,还有一个基于深度强化学习的,让机器跟人一起交互,然后从中学习。用户就只需要预约明天上午八点到火车站,这个东西就是一个打轿车的意图,这个是时间,这个是地点,帮我打车去这个地方,标注完以后,我们的技能就可以帮你产生了,你标注的越多,你的技能就越智能,理解的越清楚。
现在我不讲太多技术了,如果你没有语调,我们能自动产生语调,通过互联网大数据,能够很快的去声称一些语调交给用户标注,用户标注完以后我们能产生更多的模板,我们把这个叫做可替换辞典,开发者只需要标注,通过这样一个方式很简单的系统就帮你完成了一个。通过互联网上的大数据和我们的知识图谱,还有这些同义词、近义词的积累,我们就帮助开发者完成技能,如果你有语调,我们有深度学习的模型,利用刚刚弄好的知识,你这个可替换辞典,还有加上你的标注,用我们深度学习模型,你不需要写任何机器学习的程序,就可以让你的机器感觉很智能。
我其实做了很多年的语意理解和知识图谱。有一些人说现在有一些技能还不是那么智能,实际上怎么能避免一个不智能的技能或者是语音机器人呢?第一大家要注重垂直应用,不要觉得做一个语音机器人能把所有的事情都解决了,这个事情可能是现在还做不到的,现在技术还不够,某一个团队把特定的技术做好就可以了,同时你要知道用户,有一些用户对你的期待太高,太高的情况下,你要降低他的期望值,我们机器人的目标是和大家开发者一起构建一个智能语音交互平台的生态系统,通过大家的努力把这个智能语音交互入口做好。
我顺便介绍一下阿里巴巴上一年做了很多机器智能和人工智能的研究,我们也发表了很多相关的文章,我们同时在双十一期间有很多机器智能的成果都落地了及我们自动能设计机器人鲁班,我们有自动的客服,有很多机器人在双十一期间进行了实战。
最后分享一下我们人工智能实验室对AI的思考,我们觉得人工智能目的是帮助人,而不是代替人,很多人在想有了人工智能会不会就没有工作了?我们的目标不是这样的,人工智能应该不是对人类的威胁,更多的是将人类从重复性的物质文明的建设解脱出来,更多建设精神文明,有更多的时间来创造。
转载请注明:http://www.0431gb208.com/sjslczl/3928.html