8月7日-8月9日,年全球人工智能和机器人峰会(简称“CCF-GAIR”)在深圳如期举办!CCF-GAIR由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办,以“AI新基建产业新机遇”为大会主题,致力打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
8月7日下午,在「人工智能前沿专场」上,京东集团副总裁、人工智能研究院常务副院长、及智能人机交互业务负责人何晓冬博士进行了题为「多模态人机对话与交互:理解、创作、决策」的演讲。
何晓冬博士的演讲围绕人机对话系统的发展与应用展开,结合对“AI新秀”GPT-3的技术探讨,针对GPT-3等超大规模语言模型缺少知识和逻辑推理能力以及主要还局限于文本数据的短板,提出将高复杂的知识推理与决策任务及多模态的信息处理技术作为人工智能未来发展的驱动力。何博士还着重强调了下一步可在知识驱动的复杂任务导向人机对话和超出文本的多模态数据和信息融合两个方向发力,推动多模态人机对话与交互,并将人机对话系统落实到产业应用上,包括智能客服、智能交互营销、智能消费媒体等。
以下是何晓冬博士在大会的演讲实录,AI科技评论进行了不修改原意的整理和编辑:
一、人机对话的构想与进展
70年前提出图灵测试时,图灵选择将人与机器之间的对话作为判断机器是否具有智能的标准。他的选择并不是随意的。图灵认为对话是人特有的高级智能,只有当机器能够与人进行长时间对话时,才称得上是拥有了类人的智能。
人机对话不但是一个科学问题,也是一个技术问题。
自计算机发明以来,研究人员一直在致力于如何克服“人机交流障碍”,如何使人和机器的交流变得越来越简单。人机交互技术每往前进一步,使用计算机的人就增加几个数量级,产业价值也往往随着快速增长。下一步,我们希望计算机能与人类进行更加自如的智能的交流,从而让机器能更好的帮我们完成更多更复杂的任务。
距离图灵测试提出16年后,MIT开发出第一个人机对话机器人Eliza。但当时它只是简单模仿人的行为,谈不上智能。到上世纪90年代,人机对话进入了一个新的发展阶段,大家开始讨论怎么让计算机理解人类意图与执行命令。年,以苹果的Siri为代表的智能个人助理成为主流,随后出现更多的对话机器人,如微软小冰等等。这些机器人不但能完成你下达的任务,还能逐渐跟用户建立情感上的联系。我们预想,今后会出现越来越多能与人自由交互的机器人,人类将真正与机器人共存。
人机对话领域一直十分活跃。今年1月,谷歌开发了一个大规模端到端的对话模型,Facebook也在4月发布了一个对话模型。这些对话模型都是基于深度学习结构和Transformer变种的模型大规模训练出来的,在闲聊等场景表现出很强的应答有效性和精确性。
二、GPT-3的机遇与挑战
人机交互在文字自动生成方面也有了较大进展,如GPT-3。我认为GPT-3是研究和工程结合的一个典范。虽然GPT-3本质上仍基于Transformer模型,但OpenAI在开发的过程中运用了亿单词进行训练,模型内含亿参数,覆盖50多个任务,用到28.5万个CPU核和1万个VGPU做训练,最终取得了一个非常好的表现。GPT-3让大家开始幻想:机器还有多久能模拟人的智能?
目前来看,仍是长路漫漫。仅仅从“硬件”角度来看,人类大脑有亿神经元、-0万亿联接,能处理的任务也远远超过GPT-3。
GPT-3的强大有目共睹。它可以执行很多任务。如果让它生成某个特定的网页,它不但能生成网页,还能生成网页对应的HTML代码。它也可以直接转换语言的风格。比如你写一个很幽默的句子,GPT-3很容易就能将句子的风格转变成严肃的style。它还可以写作、聊天、翻译、问答等等。如果给它看棋谱,它还会下象棋。按照OpenAI的统计,如果让GPT-3生成一段很长的故事,再让人判断这段故事是人写还是机器写,发现人类判断准确的概率只有52%左右。这是一个令人非常感叹的结果。
但GPT-3处理另外一些简单工作的表现并不是特别好。如果你让它做一位数、两位数的加法,正确率基本能达到百分之百,但如果你让它用5位数加5位数,它的正确率就会迅速下降。这一点很奇怪。如果一个小孩已经学会加法,一般不会再出现很大的错误,除非是粗心。但是计算机是不会粗心的。再比如,如果用户去问GPT-3新冠疫情会在什么时候结束,它会给你一个答案:年12月31日。当然,我们现在没法验证这个答案的可信度,但这不是关键,关键是GPT-3依据什么样的证据来给出这个答案?如果它给不出证据的话,我们怎么相信这个答案是有效的?这说明计算机并没有真正做到逻辑理解和推理,它只是通过模式的匹配和某种泛化的规范的记忆来得到结果。
诸如GPT-3之类的超大规模语言模型实验给我们带来非常有趣的思考和挑战:
1、技术路线
人类智能/AI的许多问题与不完备规则相关。对话系统就是一个典例。它不像围棋也不像扑克。它没有完备的规则和知识边界。因此,我们可能会问:端到端的架构能力边界在哪里?超大规模的模型对知识有海量的记忆能力,展现出很强的泛化能力,在开放领域的对话能力出色,精确性、有效性的表现还不错。但这是因为它有很强的归纳能力和泛化记忆能力。在推演和演绎方面,超大规模语言模型在符号推理、输出可控和可解释方面还较弱。这是我们下一步需要聚焦的。
2、评测指标
我们希望机器拥有拟人的智能,但我们怎么判断拟人呢?是在对话层次上还是整体体验上判断?在实现传统的闲聊时,我们希望机器所说的每句话都能像人一样,分辨不出是人写的还是机器写的。如果从端到端来看,我们做闲聊的社交机器人,我们希望它在交流层次上能够拟人,让我们有一种陪伴的感觉。在做任务导向的机器人的时候,我们更
转载请注明:http://www.0431gb208.com/sjszyzl/3461.html