百度计算机视觉首席科学家王井东在视觉的竞

来源：语言识别时间：2024/10/20

去年年底，年IEEEFellow（全球电子与电气工程领域最高荣誉）名单发布，有人在知乎上评论：

「王井东老师终于当选了，实至名归。」

在中国计算机视觉领域，王井东是一个无人不知、无人不晓的研究者。在学术圈，人们会讨论他在年视觉算法数不胜数之际仍能占据群雄的HRNet（一个用于视觉识别的高分辨率神经网络）；在工业界，他在微软亚洲研究院（MSRA）视觉计算组的工作多年，后加入百度，负责视觉领域的技术研究工作，为百度的多线业务提供视觉技术支持。

图注：王井东

无论在学术研究还是技术落地上，王井东都取得了不错的成就。至今，他的谷歌学术被引数超过三万次，对于主要为解决产品问题而开展科研工作、发论文只是「茶余饭后」之消遣的企业科学家来说，这是一个相当难得的成绩。

据雷峰网近日与王井东的交谈，王井东认为，百度的搜索引擎、自动驾驶、语音助手等等不同业务线虽然场景应用有所差异，但彼此之间也存在共通的视觉问题。他从微软离开，加入百度，一方面便是看中了百度这个能够研究贯穿不同场景的独一视觉问题的平台。

王井东凭什么引领百度的视觉研究？百度的视觉布局又将朝着什么样的方向发展？

1、与天才同行

江苏人王井东是一个名副其实的理工科学霸。

他的本科与硕士就读于清华大学自动化系（国内最早研究人工智能的院系之一），硕士导师为张长水，张长水的学生里就包括目前的阿里巴巴技术副总裁贾扬清。博士阶段，他就读于香港科技大学计算机视觉与图形实验室，该实验室走出来的视觉大拿包括思谋科技创始人贾佳亚、旷视前上海研究院院长危夷晨、AutoX创始人肖健雄、阿里巴巴前计算机视觉首席科学家谭平等人。

走出校园后，他加入微软亚洲研究院。从微软亚洲研究院出来的知名视觉研究者包括沈向洋、汤晓鸥、孙剑、马毅、屠卓文、华刚、何恺明等人。到微软亚研实习的青年学生对王井东的评价是：「井东老师对细节要求非常严格，是一个非常严谨的科研工作者。」

在谈到当初为何会选择研究计算机视觉时，王井东就告诉雷峰网，那时一个主要的契机是年他在微软亚研跟着沈向洋实习时，尽管视觉的热浪还未在中国掀起，但周围许多优秀的人都在研究视觉，这使他自然而然地觉得：在未来，计算机视觉一定是一个潜力无限的发展方向。

所以，年硕士毕业后，在沈向洋的推荐下，他就去了香港科技大学读博，师从权龙做视觉研究。

值得一提的是，权龙与沈向洋都是早期进入视觉领域的中国科学家。权龙早年在法国国家信息与自动化研究所取得博士学位，法国是欧洲视觉研究最重要的发源地之一，权龙得天独厚，吸收了许多前沿的视觉知识，在年回到香港科技大学建立视觉实验室（即VisGraph），该实验室与汤晓鸥在香港中文大学建立的多媒体实验室（MMLab）是早期代表中国学者参与国际视觉顶会的中坚力量。

图注：王井东（右）与博士导师权龙（左）

王井东告诉雷峰网，他在清华与港科大的两段学习经历都对他产生了较大的影响。

年，王井东考入清华大学自动化系，本硕连读。自动化与视觉研究在外界看起来似乎毫无关联，但据王井东介绍，视觉与自动化及控制的渊源十分深厚，这体现在两方面：一是机器人等硬件控制中视觉对识别、定位与导航的重要作用（近年来如日中天的自动驾驶离不开视觉感知算法便是一个典型的例子）；二是清华自动化系早期有许多研究模式识别的学者，王井东的硕士导师张长水便是其中之一，而张长水的导师是中国科学院技术科学部委员（院士）常迥教授。

据王井东介绍，在他读硕士期间，神经网络还没火，但他的导师张长水就已经在神经网络方向做了许多出色的工作。年，张长水与阎平凡合著出版了《人工神经网络与模拟进化计算》一书。张长水还曾邀请一些国外的学者到清华全英文讲授神经网络的前沿课程，王井东由此第一次了解到用来训练多层神经网络的反向传播算法及其工作机制。

年，王井东和同学李建国就在张长水、边肇祺的指导下，在人工智能国际顶会ICML上发表了“ProbabilisticTangentSubspace:AUnifiedView”一文。要知道，当时能在ICML之类顶会上留名的人，可是屈指可数。

王井东告诉雷峰网，那时他在模式识别方向学到的许多知识，对他如今做研究仍有重要影响。例如，当时模式识别中一统天下的「核方法」（KernelMethod），如今虽然已经很少用于视觉研究，但「核方法的思想仍然存在于今天的深度学习中，人工智能领域现在用得比较多的Transformer架构在某种意义上也与之相关」。再如矩阵分析方法，如今被用在注意力加速的任务中，王井东本人也用矩阵分析来研究将平方级的复杂度变为线性的复杂度的方法，来优化速度。

去了港科大读博后，王井东的直观体验到的一个变化是，与清华的实验室侧重机器学习不同，港科大的VisGraph实验室最大的特色是：应用。实验室的研究方向都是计算机视觉或计算机图形学。在这样的环境中，王井东对视觉的理解也有了更多新的思考。

博士三年，王井东主要研究机器学习与计算机视觉，用图、半监督等方法处理图像分割问题。那时，虽然人在香港，但他与清华、微软亚研的伙伴都保持着密切的研究交流。年，王井东与沈向洋等微软研究员的合作（“PictureCollage”），以及他与张长水的工作（“Semi-SupervisedClassificationUsingLinearNeighborhoodPropagation”），就一同被视觉顶会CVPR接收。

当年的CVPR在美国纽约召开，王井东记得那时参会的中国学者已经不少。CVPR是六月举行。印象中，许多中国学者吃不惯西餐，于是他们一行人就汇集了来参会的中国学者和当时在国外的中国教授和学生，大家一起去找中餐馆吃饭、聊研究与参会的见闻。

王井东是站在视觉腾飞的起点、并见证视觉在全球走向辉煌发展的一批研究者中的一员。在回忆中，他告诉雷峰网，那时选择计算机视觉真的并不见得是一个明智的选择。从大的视角回看，王井东无疑是一个少数者，但一个人的生活并不触及太广的半径，所以对青年王井东来说，他在视觉研究上并不孤独。

2、微软十四年：视觉技术落地

年，王井东博士毕业，回到了北京，加入微软亚洲研究院。

王井东将他在微软亚研的研究分为两个阶段，也就是「7+7」（王井东一共在微软亚研工作了十四年）：第一个七年，他主要研究计算机视觉在多媒体搜索的应用；第二个七年，他的研究则聚焦在了深度学习和计算机视觉核心问题上。

第一个七年

年，多媒体搜索刚刚展示出需求与轮廓，当时的必应还是一个尚待开发的业务，沈向洋被分派到必应的研发团队负责技术。由于擅长计算机视觉，王井东被派去了解决多媒体搜索中的图像检索难题。

王井东向雷峰网介绍，那时图像搜索功能不尽如人意，如果用户想搜索一张「蓝天白云下，一只狗卧在绿色的草地上」的图像，在搜索栏里敲下这样一串文字时，搜索引擎大概率无法理解用户的搜索意图。为了解决这个问题，他与团队研发了基于草图的图像检索技术和开发一个用户交互的工具：用户可以画一个颜色草图，如用绿色来表达草地这一搜索意图，相比纯文本搜索方法取得了明显的效果提升。

这个思路并不新，早在上世纪就有基于草图的多媒体搜索方法，但用在商业搜索引擎上还是第一次。

王井东的一个体会是，在企业做研究，只有更好，没有最好。就拿上述这个例子来说，第一代用户交互方式还是繁琐，为了更简化，他和团队又继续开发了一种颜色过滤器来使用户交互更加简单：例如，如果你希望图片中的狗是蓝色的，那么就可以设置颜色筛选来获得包含蓝色的狗的图片。这项功能至今仍被应用于必应中。

围绕图像搜索，王井东从应用转向基础关键算法研究，取得了更大的成绩。

在搜索中，一个图像（即一个查询项）通常会被转化为一个向量，数据库中包含着成百上千亿的向量，如何快速搜索就成了一个问题。自年起，王井东开始研究搜索应用中的基础问题之一近似最近邻算法（ApproximateNearestNeighbor，ANN）。

ANN搜索的目标是在一个定义的距离度量下，从数据库中寻找出离查询项的距离最近项。王井东观察到一个有趣的事实：如果一个向量靠近查询项的向量，那么这个向量的相邻向量也可能靠近查询项的向量。这个思路跟「六度分割理论」（小世界理论）类似，即世界上任何互不相识的两人，只需要很少的中间人就能够建立起联系。

受此启发，王井东设计了一种ANN搜索算法，以近邻图（NeighborhoodGraph）作为索引来进行图像搜索。结果，该算法带来的搜索效果非常惊艳。王井东回忆，当时他还以为是测试出了问题，连忙又重复核查了一下，最终他惊喜地发现，这个办法比当时号称效果最佳的其他同样基于kd-trees的方法要好很多。年，这个算法已经应用在必应的图像搜索和广告中，是第一个在商业产品中成功应用基于近邻图的最近邻搜索算法。后来，微软的许多产品包括网页搜索也采用了该算法作为核心组件。目前，许多商业搜索以及推荐产品都采用了基于近邻图的近似最近邻搜索算法。

第二个七年

年，在多媒体搜索上研究多年后，王井东将目光投向了另一个发展正热的新方向——深度学习。

事实上，据王井东回忆，早在年，他就已经试过用人工智能来解决实际问题。那一年，王井东还在香港读博时，他的一位清华师兄回国创业，将卷积神经网络（CNN）用于车牌识别，他在实习时也参与了其中。

探索初期，王井东的主要工作是把深度学习算法的端到端（end-to-end）性质拓展到一些新的应用上。不过很快，他就发现了一个更重要的研究课题：视觉网络架构的设计。网络架构的设计是深度学习的核心问题之一。当时许多人都在思考：如何让神经网络变得更深。

王井东从年开始，则思考利用神经网络解决分类以外的视觉问题。

年前后，视觉领域的普遍做法是使用图像分类的网络来解决分类以外的分割、检测、姿态估计等问题，如年的AlexNet、年的GoogleNet、年的ResNet等架构。但他发现，分类网络存在一个显而易见但始终未被提出的弊端：分类网络结构在学习高分辨率表示时，先将分辨率慢慢变小，然后通过上采样的方法在分割等任务中逐步从低分辨率恢复高分辨率，这种方法所获得的特征空间精度很低。

对此，王井东提出了自己的疑问：能不能不降分辨率而保持高分辨率？能不能不依赖分类网络？

那时大家未必没有同样的疑问，保持高分辨率的想法也并不复杂，但考虑到分类的网络已经训练得很好，用到其他任务中更容易训练，所以学术界与工业界都没有人迈出改变的一步。但是，不破不立，王井东心想，若能直接学习高分辨率的表示，一定能大幅改进视觉任务的解决。

经过两三年的思路酝酿，年，王井东感到万事俱备，便领导团队开始着手设计一个学习高分辨率表示的通用视觉架构。年，HRNet在CVPR上横空出世，惊艳众人。它是王井东在视觉研究上的又一大高峰，引用数在短短三年内超过了次。

论文

转载请注明：http://www.0431gb208.com/sjslczl/7828.html

上一篇文章：腾讯优图实验室AI手语识别研究白皮书砍

下一篇文章：复旦桂韬当NLP邂逅SocialMedi