IEEEFellow梅涛视觉计算的前沿进

来源：语言识别时间：2024/10/22

创造出具有智慧的机器，迈向通用AI是人类长期以来的梦想。当下的AI发展到了哪个阶段？作者

维克多

编辑

青暮

今年12月9日，第六届全球人工智能与机器人大会（GAIR）在深圳正式启幕，余位产学领袖、30位Fellow聚首，从AI技术、产品、行业、人文、组织等维度切入，以理性分析与感性洞察为轴，共同攀登人工智能与数字化的浪潮之巅。

大会次日，IEEE/IAPRFellow，京东集团副总裁，京东探索研究院副院长梅涛在GAIR大会上做了《从感知智能到认知智能的视觉计算》的报告，他指出视觉计算的感知研究虽然已经相对成熟，某些人工智能（AI）任务已经能够通过图灵测试，例如在内容合成与图像识别，但在视频分析领域，视频数据内容多样化以及视频语义的不清晰等原因导致该领域还存在大量挑战性问题。

同时，在认知领域，视觉计算已经有一些进展，例如VisualGenome、VCR等数据集已经布局结构知识建模；而在推理层面，国内学者已经尝试通过联合解译和认知推理深入理解场景或事件。

以下是演讲全文，AI科技评论做了不改变原意的整理：

今天的演讲题目是《从感知智能到认知智能的视觉计算》。在开始之前，先用两个图灵测试的例子大致说明AI的进展。

首先计算机视觉不仅在识别领域，在内容合成领域已经达到通过图灵测试的标准。正如上图所示，人类已经很难在一组图片中将两张机器合成的图片挑选出来。

另外一个图灵测试的例子是“看图说话”：给定一张图片，描述图片的内容。下面两句话分别由人（第一句）和机器（第二句）生成。很显然，如果不仔细看图片，可能会潜意识的认为机器比人写的详细。

1.adogisliftedamongtheflowers

2.adogwearingahatsittingwithinabunchofyellowflowers

如果仔细观察图片，就会发现确实有一只手把小狗举了起来。这也说明：不太经常发生的现象，机器很难描述，其原因和机器学习的内容相关，以及机器没有逻辑推理能力。

通过上述两个例子我们可以看出：在感知领域，AI已经超越人类；而在认知领域，它还欠缺一些火候。

1计算机视觉的进展与挑战

上图是计算机视觉在过去五六十年取得的进展，年深度学习“大火”之前，计算机完成视觉任务通常有两个步骤：特征工程和模型学习。

特征工程的特点是完全依靠人类智慧，例如设计Cannyedge、Snak、Eigenfaces等参数特征，同时这些方法已经获得了大量的引用，Canny已经被引用了次，Snak次，SIFT更是已经超过了次。

年之后，深度学习兴起，颠覆了几乎所有的计算机视觉任务。其特点是将传统的特征工程和模型学习合为一体，即能够在学习的过程中进行特征设计。

深度学习火热的另一个标志是每年有大量的论文投到计算机视觉顶会（CVPR、ICCV、ECCV等），同时如果这些方法表现“杰出”，就能够获得大量的流量，例如GoogleNetVGG在不到8年的时间里获得了10万次引用；年的ResNet更是在更短的时间获得了接近10万次的引用。

这说明深度学习领域在飞速发展，而且进入这个领域的人越来越多。一方面不仅深度学习网络在不断“更新换代”，图像、视频等数据集也在不断增长，甚至有些数据集规模已经过亿。

其中，深度学习的一个趋势是“跨界”。在年，Transformer在自然语言处理领域的性能被证明“一枝独秀”，现在已经有大量学者开始研究如何将其纳入视觉领域，例如微软亚洲研究院swintransformer相关工作获得了ICCV的最佳论文奖。

上图展示了随着研究范式的变化，数据集的变化趋势。无论是数据集的类别还是数据集的规模都在不断增大，有些数据集更是超过了10亿级别。目前类别最多的是UCF数据集，其中包括个类。同时，大规模也带来了一个弊端：一些高校和小型实验室无法进行模型训练。

特定领域进展如何？在图像识别领域，最广为人知莫过于ImageNet竞赛。其任务是给定一张图，预测出五个相关的标签。随着深度学习网络的层数越来越深，识别的错误率越来越低，到年，ResNet已经它达到了层，并且已经超过了人类识别图像的能力。

在视频分析领域。Kinetics-视频分析任务反应了该领域的进展，从年和年出现了各种适合视频任务的神经网络，其网络大小、深度并不一致，而且从准确率、识别精度上看，也没有一致的结果。换句话说，该领域存在大量的潜力（openquestion）。至于原因，个人认为有两种：

1.视频内容非常多样化，而且是时空连续的数据。

2.同样的语义，在视频中会有不同的含义。例如不同语气和不同表情下对同一个词的输出。

过去10~20年，视觉感知领域存在很多主题。如上图所示，从最小力度的像素级别到视频级别，基本上可以归为几大研究领域：语义分隔、物体检测、视频动作行为识别、图像分类、Visionandlanguage。其中，Visionandlanguage最近五年比较火热，其要求不仅从图视频内容里面生成文字描述，并且也可以反过来从文字描述生成视频或者图片的内容。

总结起来，目前视觉研究的主要方向还是进行RGB视频和图像研究，在不远的将来，成像的方式会发生变化，那时研究的数据将不仅是2D，更会过渡3D，甚至更多的多模态的数据。

在视觉理解领域，通用的视觉理解非常简单：例如区分猫和狗，区分车和人。但在自然界里，要真正的做到对世界的理解，其实要做到非常精细的粒度的图像识别。一个直观的例子是鸟类识别，理想中的机器需要识别10万种鸟类，才能达到人类对“理解世界”的要求。如果再精细一些，需要达到商品SKU细粒度识别。

注：一瓶毫升和毫升的矿泉水就是不同粒度的SKU。

过去几年，京东在这方面做了一些探索。探索路径包括：detection的方式，detection结合attention的方式，以及自监督的方式。涉及论文包括CVPR的“DestructionandConstructionLearning”以及CVPR的“Self-supervised”相关工作。

CVPR：DestructionandConstructionLearningforFine-grainedImageRecognition

论文

转载请注明：http://www.0431gb208.com/sjszyzl/7846.html

上一篇文章：人工智能要学习哪些课程机器学习计算机视

下一篇文章：未来已来8个科技领域最前沿的技术,跟上时