机器之心原创
作者:AnguliaChao
编辑:JoniZhong
少样本学习(Few-ShotLearning)是近两年来非常有研究潜力的一个子方向,由于深度学习在各学科交叉研究与商业场景都有比较普遍的应用,然而训练出高精度模型的情况大部分来源于充足的训练数据,这一条件在很多实际应用场景中是比较难以满足的,同时刻意收集大量数据并且进行人为标记也对应较大的付出。
针对此类痛点,少样本学习被提出并进行了多个应用场景下的尝试。本届NeurIPS也收录了近十篇关于少样本学习的文章,他们或是从数据增强的角度出发,或是从特征表征(FeatureRepresentation)的加强提出了新的思路。本文涵盖了本届NeurIPS收录的少样本学习文章,着眼于工作的实用性,创新性以及延续性三个维度,详解分析了三篇笔者认为非常具有启发性和实用性的少样本学习文章,概述了其余几篇的贡献和亮点,以期给感兴趣的读者呈现关于该方向最新的研究进展,以及对后续研发的启示。
Few-shotVideo-to-VideoSynthesis
类比于Image-to-Image,将特定场景下的输入图像转换到另一场景生成新图,Wangetal在提出的视频到视频的合成(Video-to-Videosynthesis,简称vid2vid)将连续多帧图像构成的视频,转换到新场景下并生成新的语义场景下的视频。本文是作者在该文基础上做的扩展。参考下图,根据对应的人体关键点姿态运动视频(posevideos),模型相应合成真人的动作视频。之前提出Vid2vid文献的局限也非常明显:数据需求量太大,合成模型表达能力有限。首先,对于合成某人真人运动视频要求模型有大量目标对象的图像来完成训练,对数据量的要求巨大,其次单个姿态到真人视频合成vid2vid模型通常只能合成训练集里包括的人体个体,无法生成任何不处于训练集中的人的运动视频。
基于以上限制,few-shotvid2vid方法提出在测试阶段喂给模型少量目标样本的图像,学习合成未见过的目标个体或者场景的对应视频。参考右图示意,不需要为每个人和每个特定场景都寻找大量的训练样本来合成视频,对于未知个体,可以通过few-shotvid2vid模型本身的场景泛化能力,使得测试阶段提供少量目标图像就可以合成同样的真人运动视频。相较于已有的vid2vid工作,few-shotvid2vid工作的亮点集中于:1.除了人体姿态的语义视频,额外增加了少量目标真人的图片作为模型测试阶段的额外输入。2.使用了新颖的网络参数生成(NetworkWeightGeneration)机制,利用这少量的目标图片训练了一个模块来生成网络对应的参数。结合架构图,我们可以进一步了解few-shotvid2vid框架的详细设计:
简化地说,vid2vid任务的学习目标就是模拟一个映射函数F(mappingfunction)将语义视频的输入序列S映射转换为合成视频输出序列X』,同时合成结果X』的条件分布(conditionaldistribution)令其跟真实目标X的条件分布尽可能接近(简单说输出目标视觉上应该与真实目标是一致的)。为了学习这个条件分布,现有工作通过一个简单的马尔科夫假设(Markovassumption),构建了一个序列生成模型F(sequentialgenerativemodel)来学习生成我们的目标输出序列,生成模型F通常有几种不同的建模方式,在文章里沿用了大多数vid2vid工作(Figa)采用的图像提取方程(imagemattingfunction):
作为进一步延伸,few-shotvid2vid的合成函数多了图像样本(samplee)加上语义样本(semanticsamplese)两个额外输入:
要得到目标输出的合成结果X,函数计算的核心模块为软掩盖图m(softocclusionmap),多帧图像构成的光流w(opticalflow),以及半合成图像h(synthesizedintermediateimage),三个模块带入到深度学习,又可以被表示为一个个神经网络参数化后的计算函数(计算模块)为M,W,H,其涉及的参数都可以被网络学习并且在完成训练之后固定:
few-shotvid2vid在整体框架上仍然沿用了目前的SOTA方法,保留了光流预测模块子网络W以及软掩盖图预测模块子网络M。而考虑到我们的额外少量目标图片输入,few-shotvid2vid集中优化了中间图像合成的模块H(Figb,c),用一个语义图像合成模型SPADE作为图片生成器取代了原先工作中的生成模型,SPADE模型包含多个空间微调分支(spatialmodulationbranch)以及一个主要的图像合成分支,同时提出一个额外的网络参数生成模块E(networkweightgenerationmodule),使用该模块E作用于每个空间微调分支,来抽取一些视频内存在的有用模式,从而使得生成器能够合成未训练过的场景的视频结果。
参考上图中的b,c模块,E分别由EA,EP,EF三个子网络模块构成,EF由多个卷积层组织起来进行图像特征抽取,EA模块则通过预测软注意力图(softattentionmaps)和加权平均(weightedaverage)操作将多张图像抽得的特征进行糅合,最终得到的糅合表征输入到子网络EP当中,使得我们可以得出改良后的SPADE生成模块分支,产生生成模型需要学习到的参数。
基于如上的整体网络结构,few-shotvid2vid又包含了诸如基于注意力的聚合方法(attention-basedaggregation),图像变形(exampleimagewarping),训练与推理过程调整等具体实现中的技巧,在YouTubedancingvideos,Street-scenevideos,Facevideos三个公开数据集上做了方法的验证,都取得了目前最好的性能指标。
视觉合成效果上直观来看,无论是人体姿态动作和成,街道场景合成,或者人脸合成任务,few-shotvid2vid都实现了一个直观而清晰的合成结果,对比其他方法,有比较高的准确度和辨识度。
综合英伟达之前出的一系列生成模型相关论文,这篇few-shotvid2vid从少样本学习的角度切入,着眼于生成模型优化并巧妙加入少量目标图像为辅助信息学习条件分布,针对视频合成的高级视觉任务而非目前占比例较高的分类识别任务,最终在几个数据集上结果呈现很不错,作者同步还公开了代码以及一个三分钟的演示小视频,是一篇值得
转载请注明:http://www.0431gb208.com/sjszlff/2675.html