未来十年,计算机视觉技术将取得巨大的飞跃。本篇文章回顾了在21世纪第一个10年里计算机技术的趋势和突破,并畅想在第二个10年,我们可以期待什么新的趋势以及突破。
计算机视觉简史
在20世纪整个80年代,90年代以及本世纪的头10年,计算机视觉是一项众所周知的困难任务。不过即使仅仅是研究实验室里表现平平的技术,在公众那里也大受欢迎。在那个时代,用于训练机器学习系统视觉任务的特征是在一个被称为特征工程的过程中手动设计的。
什么是特征工程呢?大致来说,就是我们利用我们堪称“专家”的人类直觉来设计特殊的技巧,这些技巧在图像中的特定模式上工作,从而为正在学习的计算机创造有用的特征。多年来,我们积累了许多这样的技巧,每种技巧都有自己的首字母缩写:HOG,SIFT,ORB,甚至SURF。然而,不幸的现实是,解决现实世界的问题只依赖于单一某项技术是不行的。必须将上述各种技术精心策划,搭配起来使用。举例来说,用来检测道路上的分割线的技术,并不能用来识别和区分人脸。因此,构建一个能够检测众多类型图像的通用系统仍然是一个遥远的梦想。
超越特征工程
计算机视觉技术在年代初发生了剧烈变化,当时我们看到了自计算机本身发明以来最大的计算机视觉革命。
年,在ImageNet大型视觉识别挑战赛上,一种名为AlexNet的计算机视觉算法比竞争对手提高了10%。全世界都震惊了。最令人惊奇的是:这个模型没有使用手工设计的特征。取而代之的是,这个模型依赖于一个被称为神经网络的通用学习系统。AlexNet的突破在于使用GPU(图形处理单元)来训练计算机视觉模型的速度要快得多,而训练周期也要长得多:AlexNet在两个消费级GPU上训练了6天。相比之下,OpenAI在年发布的GPT3的模拟训练时间相当于年,训练成本约为万美元。
自从AlexNet问世以来,我们继续添加数据点,这些数据点正在显示出一个清晰明显的模式:数据集越大,模型就越大,我们训练的时间越长,我们的学习特性就变得越好。我们现在第一次可以看到通往我们一直梦寐以求的通用智能系统的清晰路径。
推出:Transformer,Mobilize
最近,在过去的几年中,我们看到了视觉算法的一个新的突破,即卷积变换的出现。
Transformers是一种基于编码器和解码器的深度学习架构,在自然语言处理(NLP)任务中已经流行了一段时间。Facebook人工智能研究小组的DETR等论文展示了Transformer如何在视觉任务中获得优异的表现,轰动一时。
Transformer比目前流行的计算机视觉算法(如MaskRCNN)更容易实现,代表着计算机视觉向尽量减少对人类干预处理的依赖这一方向又迈进了一步。我们花在开发和调优这些算法上的时间越少,我们就越能处理日益复杂的任务,使计算机视觉更容易被更多的人使用。
随着我们进入下一个十年,这一趋势的一个巨大分支将是创造出既适用于视觉又适用于自然语言处理任务的Transformer友好型硬件的机会。现在,关于智能代理(物联网摄像头,Alexa和GoogleHome设备等)是在云端还是直接在设备本身上完成推论这部分工作,目前还存在很多争论。这个小设备究竟只是一个向云端的专门大脑发送信号的哑巴传感器,还是一个使用硅胶来识别你的脸并听取你的命令的通用小学习者呢?也许后面一种方案对于重视隐私保护的人来说更可取,因为数据永远不会离开这个设备。此外,模型架构的更加同质化这一现象将对网络边缘设备是否胜过云这一争论产生影响。
数据能力与计算机视觉中的综合数据
文章前面已经谈到了算法和硬件。现在来讨论一下人工智能拼图中最重要的一块:数据。
历史趋势告诉我们:第一,算法变得更加通用;第二,针对来自人类的处理的护栏变得更小。这样做的后果是,计算机视觉的性能更依赖于用来训练它的数据。这并不让人感到意外,我们都已经看到了,科技巨头们正在积累庞大的数据集。
然而,获得庞大的数据集并不是打造更强大人工智能的答案。因为这些数据集,无论是从互联网上收集的,还是在内部精心设计和捕获的,都不是训练更通用的自主算法的最佳方法。这种“真实数据”允许所有真实世界的偏见不可避免地渗透到计算机视觉算法中。此外,真实数据并不是简单拿过来就可以用到训练中的:数据需要经过一系列的处理才能被用于训练,例如清理,打标签,以及标注。
因此,我们发现自己正处在一个与神经网络和转换器的引入同样重要的技术转变的悬崖上。数据是阻碍计算机视觉的一大障碍。我们认为,解决办法是合成数据。一个快速的定义:合成数据是由计算机创建和生成的数据(想想视频游戏或你在电影中看到的CGI)。对这个虚拟世界的完全控制意味着像素完美的标签(想想元数据,比如哪些像素对应于图像中的人脸),甚至是在现实世界数据集中可能无法标记的标签。
合成数据仍处于初期。很像年代的特征工程,目前每个合成数据集都是利用人类直觉手工设计的。但就在我们说话(或者说阅读)的时候,初创公司正在开发相关的系统,足以允许我们产生无限的合成数据流,而这些数据流是由学习系统自己设计的。
生成自动化合成的数据,或者像我们喜欢想的那样,合成数据集生成平台的出现,将改变计算机视觉的游戏规则。十年后,计算机视觉算法将通过被称为终身学习的过程不断改进。该模型将识别其弱点,为该弱点生成新的合成数据,并在该数据集上进行训练。而这一趋势最好的部分则是:这一切都将是自动化的,背后是在云中某处的成群的GPU上运行的一个不可见的进程。
这就是我们在进入年代时所能期待的:它关乎数据,更具体地说,是合成数据。这将优化并为我们带来更复杂的计算机视觉技术。
转载请注明:http://www.0431gb208.com/sjslczl/4347.html