田奇华为计算机视觉研究计划与进展丨CCF

来源：语言识别时间：2024/12/4

华为云人工智能领域首席科学家、IEEEFellow田奇年8月7日，第五届全球人工智能与机器人峰会（CCF-GAIR）在深圳正式开幕。CCF-GAIR峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。作为中国最具影响力和前瞻性的前沿科技活动之一，CCF-GAIR大会已经度过了四次精彩而又辉煌的历程。在大会第二天的「视觉智能城市物联」专场上，华为云人工智能领域首席科学家、IEEEFellow田奇教授登台发表精彩演讲，分享了华为在人工智能领域的理解与实践。田奇介绍了华为在人工智能领域的十大愿景，华为为了实现这个战略目标，从中梳理出深耕基础研究、打造全栈方案、投资开放生态和人才培养、解决方案增强、内部效率提升五大方向，以此打造无所不及的AI，构建万物互联的智能世界。华为计算机视觉基础研究以数据高效和能耗高效为核心，覆盖从2D视觉到3D视觉的技术和应用，主要包含底层视觉、语义理解、三维视觉、数据生成、视觉计算、视觉多模态等方面。在此方向上，华为将基础研究进一步聚焦到数据、模型和知识三大挑战：1、数据上，如何从海量的数据中挖掘有用的信息。田奇以生成数据训练和不同模态数据对齐这两个应用场景为例，介绍了华为如何使用知识蒸馏与自动数据扩增结合的方法让AI模型高效地挖掘数据中的有用信息。2、模型上，怎样设计高效的视觉模型。田奇认为在深度学习年代，视觉模型主要包含神经网络模型设计和神经网络模型加速两个场景。具体地，田奇介绍了华为如何通过局部连接思路解决网络冗余问题、如何加入边正则化思想来解决局部连接带来的不稳定性等等。3、知识上，如何定义视觉预训练模型、如何通过虚拟环境学习知识、如何表达并存储知识。为了实现华为打造通用视觉模型的目标，田奇认为推理预测是从视觉感知到认知的关键步骤。虽然预训练方法目前在视觉领域的应用还不成熟，但是近期自监督学习的成果为视觉通用模型的发展注入了新活力，这也将成为常识学习的必经之路。基于三大挑战，田奇提出华为视觉六大研究计划：数据冰山计划、数据魔方计划、模型摸高计划、模型瘦身计划、万物预视计划、虚实合一计划，来帮助每一位AI开发者。以下是田奇教授的大会演讲全文，雷锋网作了不改变原意的整理与编辑：尊敬的各位嘉宾、各位老师、各位朋友，大家下午好！我是田奇，现任华为云人工智能领域首席科学家。非常感谢大会的邀请，很荣幸能在这里为大家介绍华为计算机视觉计划。首先，我会简单介绍一下华为人工智能的研究背景和在计算机视觉领域的基础研究。然后，我会从模型、数据和知识三个核心点出发，来重点介绍华为视觉六大研究计划。最后，我会介绍一下华为云人工智能在人才培养方面的理念。近年来，AI的发展如火如荼，正在改变各行各业。华为预计：到年左右，97%的大企业都会上云，其中77%的企业云服务都会涉及到AI。因此，在云上，AI是一个关键的竞争点。如果把大企业的智能化升级比作一个赛道，那么AI、IoT、5G就是提高发展速度和商业高度的重要引擎。以前我们的董事长徐直军阐述过华为在人工智能领域的十大愿景，这里我简单介绍几点。过去，长达数年的分析时间，未来会是分钟级的训练耗时；过去，需要天量的资源消耗，未来将是高性能的计算；过去，计算主要集中在云端，未来主要是云端+终端；过去，是大量的人工标注，未来将是自动标注、半自动标注的舞台；过去，专业人员才能用AI，未来是面向普通人的一站式开发平台。基于这样的愿景，华为的AI发展战略就是打造无所不及的AI，构建万物互联的智能世界。华为将从以下五个方向进行研究或者投资。第一：深耕基础研究，在计算机视觉、自然语言处理、决策推理等领域，构筑数据高效、能耗高效、安全可信、自动自治的机器学习的基础能力。第二：打造全栈方案，面向云、边、端等全场景，全栈的解决方案，提供充裕的、经济的算力资源。第三：投资开放生态和人才培养，将面向全球，持续与学术界、产业界和行业伙伴进行广泛的合作。第四：把AI的思维和技术引入现有的产品和服务，实现更大的价值、更强的竞争力。第五：提升内部的运营效率。华为云CloudAI的定位就是围绕鲲鹏、昇腾和华为云构建生态，打造黑土地，成为数字世界的底座。为了实现这个目标，华为云提出了一云两翼双引擎+开放的生态目标。就像这架飞机一样，双引擎是基于鲲鹏和昇腾构建的基础芯片架构；两翼是计算以及数据存储和机器视觉；一云是华为云，提供安全可靠的混合云，成为生态伙伴的黑土地，为世界提供普惠的算力。开放的生态是指硬件开放、软件开源，使能我们的合作伙伴。华为云主要面向八大行业使能AI技术。到年底，我们已经提供了60种服务、多种功能，所涉及的行业包括：城市、互联网、家庭、车联网、物流、金融、园区、制造等等。以上是对华为AI的简单介绍，下面将介绍我们在计算机视觉领域的一些基础研究。众所周知，人类对外部世界的感知80%以上来自于视觉信号。近年来，随着视觉终端设备的不断普及，如何让机器像人类一样拥有感知视觉信号的能力是计算机视觉的终极目标。计算机视觉已在智能汽车、智能手机、无人机、智能眼镜等诸多行业得到了广泛应用。总的来说，视觉研究可以分以下几个部分：首先是基础理论，例如统计学习、优化方法、深度学习技术等；接下来考虑底层视觉，如超分辨、图象增强、去模糊、去噪声、去反光等等；再到中高层的语义理解，包括场景理解、物体分类与检测、人脸、手势、人体姿态的识别、分割和分组等等。除了二维视觉以外，三维视觉的研究也有着极其重要的地位，包括三维重建、点云处理和分析、景深感知分析等等。同时，在人工智能时代，数据生成的方法研究也是一项有价值的任务。在一些工业场景中，视觉计算借助海量算力来做一些神经网络架构搜索的研究，以及模型压缩与量化。最后是视觉与其他模态的结合，比如视觉与语言的结合，视觉与图形学结合，这都是计算机视觉领域的一些基础性的研究课题。华为的基础研究就是围绕底层视觉、语义理解、三维视觉、数据生成、视觉计算、视觉+多模态等方面，构建数据高效、能耗高效的机器学习能力。华为对底层视觉的研究涉及诸多方面，这些技术有着广泛应用场景，比如，为了提升手机端的图片质量，我们对照片进行超分辨和去噪处理，并提出了一系列有针对性的算法以面对从Raw域到sRGB域去噪，来提高照片的清晰度。在语义理解方面，由于图像视频包括丰富的语义信息，如何有效理解并分析它们是一项富有挑战性的课题。以下举几个例子来说明：挑战之一：同一内容的视觉特征的差异性。比如说拥抱这个动作，虽然是内容相同，但视觉表征可能非常不同，我们称其为类内差异性。挑战之二：不同内容的视觉特征十分相似，我们称其为类间相似性。比如上图的两个男子，从图像上看，他们的视觉特征非常相似。但是放到场景中，一个是在排队，一个是在对话，这直观地解释了不同类间具有很高的类间相似性。挑战之三：如何区分正常事件与异常事件。比如一群人在晨跑和一群人在斗殴，这往往会造成边界模糊。对于3D视觉而言，虽然三维数据比二维数据携带着更丰富的信息，但与之而来的是诸多挑战。比如在医学领域，获取具有精准标注的医疗数据，往往需要专家的协助，这是困难并且昂贵的；同时，因为一些医疗影像通常是在一些很细微的地方有差异，所以区分正常样本和异常样本的难度非常大；此外，视频数据也存在大量的冗余，如何去除冗余并提取有效信息也很具挑战性。最后，准确检测和追踪物体也极具挑战并值得进一步探索。数据生成同样是一个热门研究方向。我们认为数据是视觉算法研究的保障和基石，在深度学习时代，大多数场景数据的收集越来越昂贵，所以数据生成具有直接的应用价值。比如在安防企业中基于姿态的行人数据生成；在无人驾驶中街景数据的生成以及人脸数据的生成等。但目前该领域仍存在一些挑战：挑战之一：通过人机交互对人脸特征的选择与标注需要大量的人力成本；挑战之二：如何生成高质量的图像以及视频数据仍是巨大挑战；挑战之三：生成数据同质化严重，数据多样性有待提高；挑战之四：算法复杂度也制约着数据生成的性能，特别是视频数据生成这类对算力有着较高要求的任务。下一个基础研究是视觉计算，我们认为视觉计算是深度学习算法应用落地的关键一环。它主要集中在两个方面：一个是模型的压缩与加速，这对机器视觉在端侧的部署具有重大的意义；另一个就是神经网络架构设计。但是视觉计算目前仍然面临一些挑战。第一，边缘计算缺乏统一的平台，用户调用不便；第二，缺乏针对其它特定视觉任务的网络压缩与加速的算法；第三，网络结构搜索在性能和搜索的效率上都有待进一步提高。最后一个研究领域是视觉与多模态。真实世界的数据是多模态的，比如在自动驾驶中，除了摄像头的输入，还有激光雷达的点云数据；在图片、视频的描述中，从图片、视频到文字的映射等。它们存在的挑战，包括数据融合的问题、数据对齐的问题、数据异质性的问题、主观性和不确定性的问题、还有协作方面的问题，都有待研究。以上是华为计算机视觉基础研究的一些方向，下面介绍一下我们从这些基础研究中，进一步提出的华为视觉研究计划。我们认为计算机视觉实际上面临三大挑战：从数据到模型、到知识。从数据来讲，举个例子，每分钟上传到YouTube的视频数据已经超过小时，如何从这些海量的数据中挖掘有用的信息，这是第一个挑战。从模型来讲，人类能够识别的物体类别已经超过2万类，计算机如何借助于深度神经网络来构建识别高效的视觉识别模型，这是第二个挑战。从知识来讲，在计算机视觉里面如何表达并存储知识，这是第三个挑战。因此我们提出的第一个研究方向：如何从海量的数据中挖掘有效的信息？有两个主要应用场景，一是如何利用生成数据训练模型；第二是如何对齐不同模态的数据。深度学习主要是监督学习的范式，需要大量人工标注的数据，而人工标注的成本越来越高，比如无人驾驶，数据标注成本可能成百上千万，因此华为也花了很大的人力物力来研究数据生成技术。我们把数据生成技术主要分为三类：第一类是数据扩增；第二类是利用生成对抗网络GAN来合成更多的数据；第三种方法是利用计算机图形学技术来生成虚拟场景，从而生成我们所需要的虚拟数据。在这三方面，华为在ICLR20、CVPR和CVPR都有一些相关论文发表，数据生成主要应用的领域在智慧城市、智能驾驶方面。在这里，介绍一个我们最新的工作。我们提出知识蒸馏与自动数据扩增结合的方法，在不使用额外数据的情况下，可以达到业界领先精度：在ImageNet-Top-1准确率为85.8%。之前几年都是谷歌最强，它在ImageNet-上最高精度是85.5%。数据的第二方面是多模态学习。例如无人驾驶有图像、GPS、激光雷达信息。相对于单模态，多模态具有天然的互补性，因此是场景理解的主要手段。当然也面临很多挑战，比如多模态的信息表示、融合、对齐、协同学习等等。我们认为多模态学习是未来机器视觉的主流方式，在自动驾驶、智能多媒体方面有着广泛应用前景。在多模态学习方面，介绍一个我们在年的ACM多媒体会议上获得最佳论文提名的工作，该工作主要是面对电商(服装)设计了一个人机对话系统。具体而言，系统会依据用户需求生成不同的模态响应，使用一个统一模型以编码不同形式领域信息。最后在图像选择、文本响应都取得了很好的结果，右边的

转载请注明：http://www.0431gb208.com/sjszlff/7971.html

上一篇文章：语音芯片语音识别有哪些算法

下一篇文章：看脸时代,人脸识别是如何识别人脸的具