毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

Transformer也能生成图像,新型

来源:语言识别 时间:2023/2/28
偏方治白癜风 http://m.39.net/pf/a_4792653.html

选自arXiv

作者:ZhuowenTu、CeLiu等

机器之心编译

编辑:Panda

Transformer已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由CNN主导的任务上暂露头角。近日,加州大学圣迭戈分校与GoogleResearch的一项研究提出了使用视觉Transformer来训练GAN。为了有效应用该方法,研究者还提出了多项改进技巧,使新方法在一些指标上可比肩前沿CNN模型。

卷积神经网络(CNN)在卷积(权重共享和局部连接)和池化(平移等变)方面的强大能力,让其已经成为了现今计算机视觉领域的主导技术。但最近,Transformer架构已经开始在图像和视频识别任务上与CNN比肩。其中尤其值得一提的是视觉Transformer(ViT)。这种技术会将图像作为token序列(类似于自然语言中的词)来解读。Dosovitskiyetal.的研究表明,ViT在ImageNet基准上能以更低的计算成本取得相当的分类准确度。不同于CNN中的局部连接性,ViT依赖于在全局背景中考虑的表征,其中每个patch都必须与同一图像的所有patch都关联处理。

ViT及其变体尽管还处于早期阶段,但已有研究展现了其在建模非局部上下文依赖方面的优秀前景,并且也让人看到了其出色的效率和可扩展性。自ViT在前段时间诞生以来,其已经被用在了目标检测、视频识别、多任务预训练等多种不同任务中。

近日,加州大学圣迭戈分校与GoogleResearch的一项研究提出了使用视觉Transformer来训练GAN。这篇论文的研究议题是:不使用卷积或池化,能否使用视觉Transformer来完成图像生成任务?更具体而言:能否使用ViT来训练生成对抗网络(GAN)并使之达到与已被广泛研究过的基于CNN的GAN相媲美的质量?

为此,研究者遵照最本原的ViT设计,使用纯粹基本的ViT(如图2(A))训练了GAN。其中的难点在于,GAN的训练过程在与ViT耦合之后会变得非常不稳定,并且对抗训练常常会在判别器训练的后期受到高方差梯度(或尖峰梯度)的阻碍。此外,梯度惩罚、谱归一化等传统的正则化方法虽然能有效地用于基于CNN的GAN模型(如图4),但这些正则化方法却无法解决上述不稳定问题。使用了适当的正则化方法后,基于CNN的GAN训练不稳定的情况并不常见,因此对基于ViT的GAN而言,这是一个独有的挑战。

针对这些问题,为了实现训练动态的稳定以及促进基于ViT的GAN的收敛,这篇论文提出了多项必需的修改。

在判别器中,研究者重新审视了自注意力的Lipschitz性质,在此基础上他们设计了一种加强了Lipschitz连续性的谱归一化。不同于难以应付不稳定情况的传统谱归一化方法,这些技术能非常有效地稳定基于ViT的判别器的训练动态。此外,为了验证新提出的技术的作用,研究者还执行了控制变量研究。对于基于ViT的生成器,研究者尝试了多种不同的架构设计并发现了对层归一化和输出映射层的两项关键性修改。实验表明,不管使用的判别器是基于ViT还是基于CNN,基于修改版ViT的生成器都能更好地促进对抗训练。

为了更具说服力,研究者在三个标准的图像合成基准上进行了实验。结果表明,新提出的模型ViTGAN极大优于之前的基于Transformer的GAN模型,并且在没有使用卷积和池化时也取得了与StyleGAN2等领先的基于CNN的GAN相媲美的表现。作者表示,新提出的ViTGAN算得上是在GAN中使用视觉Transformer的最早尝试之一,更重要的是,这项研究首次表明Transformer能在CIFAR、CelebA和LSUN卧室数据集等标准图像生成基准上超过当前最佳的卷积架构。

方法

图1展示了新提出的ViTGAN架构,其由一个ViT判别器和一个基于ViT的生成器构成。研究者发现,直接使用ViT作为判别器会让训练不稳定。为了稳定训练动态和促进收敛,研究者为生成器和判别器都引入了新技术:(1)ViT判别器上的正则化和(2)新的生成器架构。

图1:新提出的ViTGAN框架示意图。生成器和判别器都是基于视觉Transformer(ViT)设计的。判别器分数是从分类嵌入推导得到的(图中记为*);生成器是基于patch嵌入逐个patch生成像素。

增强Transformer判别器的Lipschitz性质。在GAN判别器中,Lipschitz连续性发挥着重要的作用。人们最早注意到它的时候是将其用作近似WGAN中Wasserstein距离的一个条件,之后其又在使用Wasserstein损失之外的其它GAN设置中得到了确认。其中,尤其值得

转载请注明:http://www.0431gb208.com/sjslczl/3544.html