一幅图像能顶16x16字用于大规模图像

来源：语言识别时间：2022/12/11

白癜风需要注意什么 http://m.39.net/pf/a_7925874.html

作者

StanKriventsov编译

Flin来源

medium

在这篇博文中，我想在不作太多技术细节的情况下，解释其作者提交给ICLR会议的新论文“一张图等于16x16个字：用于大规模图像识别的变压器”的意义（目前为止匿名）。

另一篇文章中，我提供了一个示例，该示例将这种新模型（称为VisionTransformer，视觉变压器）与PyTorch一起用于对标准MNIST数据集进行预测。

自年以来深度学习（机器学习利用神经网络有不止一个隐藏层）已经问世，但促使深度学习真正来到了前列的，是年的时候AlexNet，一个卷积网络（简单来说，一个网络，首先查找小的图案在图像的每个部分，然后尝试将它们组合成一张整体图片），由AlexKrizhevsky设计，赢得了年度ImageNet图像分类竞赛的冠军。

在接下来的几年里，深度计算机视觉技术经历了一场真正的革命，每年都会出现新的卷积体系结构（GoogleNet、ResNet、DenseNet、EfficientNet等），以在ImageNet和其他基准数据集（如CIFAR-10、CIFAR-）上创下新的精度记录。

下图显示了自年以来ImageNet数据集上机器学习模型的最高精度（第一次尝试时正确预测图像所含内容的准确性）的进展情况。

然而，在过去的几年里，深度学习最有趣的发展不是在图像领域，而是在自然语言处理（NLP）中，这是由AshishVaswani等人在年的论文“注意力是你需要的一切”中首次提出的。

论文

转载请注明：http://www.0431gb208.com/sjszlfa/2643.html

上一篇文章： 98准确率,63种语言翻译,这款搜狗录

下一篇文章：没有了