天下网商记者黄天然
每个人都有这样的回忆,小时候语文老师教我们看图说话,许多小朋友脑洞大开,说出来的答案让人啼笑皆非。实际上,看图说话的能力在年幼时期需要训练,而对于大一点孩子来说就不成问题了。如今,机器人也能做到看图说话了。
近日,来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛(VisualDialogueChallenge)中,阿里AI击败了微软、首尔大学等十支参赛队伍,一举获得冠军。
阿里AI在视觉对话竞赛中得冠会“看图说话”的AI有多聪明?
这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。
该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况,还要经得起人类对图片各种细节的追问。比如,在一张撑着雨伞的人物图片中,说出伞是什么颜色的,有多少人在图中,附近有什么物品和建筑物等等信息。
视觉对话中AI(左)可以从容应对人类提竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%,并且超过微软AI的64.78%的准确率。而在相同的数据集中,人类的准确率仅为64.27%,AI甚至胜过了人类。
传统的视觉AI主要针对目标的检测和识别,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答表达图片对象直接关系的复杂问题,也难以将图片信息转化为人类理解的语言输出。
这意味着,要实现视觉对话能力,传统的视觉AI在学会“看图”之后,还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。
视觉对话AI与用户交流图像内容这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式,能识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,综合集成了图像识别、关系推理与自然语言理解三大能力,能理解人类提出的问题及真实意图,给出自然准确的回复。
视觉对话能力让AI迈上新台阶
AI能“看图说话”,这样的应用其实距离我们并不遥远,微软之前推出了一款年龄测试工具How-old.net,曾经刷爆微博和朋友圈,所应用的就是这一技术的应用。
目前微软还开放了能“看图说话”的AI系统,用户进入
转载请注明:http://www.0431gb208.com/sjslczl/2953.html