小白系列2图像识别中的VisionT

来源：语言识别时间：2022/12/3

小白系列（1）

计算机视觉之图像分类

年，VisionTransformers（ViT）已经成为了卷积神经网络（CNN）的最具有竞争力替代品。虽然卷积神经网络目前在计算机视觉中处于领先地位，被广泛用于不同的图像识别任务。但是ViT模型在计算效率和准确性方面比当前的SOTA算法（CNN）高出了近4倍。

目前Transformers模型在自然语言处理（NLP）中被广泛应用。最近人们对ViT和多层感知器（MLP）也越来越