作者
StanKriventsov编译
Flin来源
medium
在这篇博文中,我想在不作太多技术细节的情况下,解释其作者提交给ICLR会议的新论文“一张图等于16x16个字:用于大规模图像识别的变压器”的意义(目前为止匿名)。
另一篇文章中,我提供了一个示例,该示例将这种新模型(称为VisionTransformer,视觉变压器)与PyTorch一起用于对标准MNIST数据集进行预测。
自年以来深度学习(机器学习利用神经网络有不止一个隐藏层)已经问世,但促使深度学习真正来到了前列的,是年的时候AlexNet,一个卷积网络(简单来说,一个网络,首先查找小的图案在图像的每个部分,然后尝试将它们组合成一张整体图片),由AlexKrizhevsky设计,赢得了年度ImageNet图像分类竞赛的冠军。
在接下来的几年里,深度计算机视觉技术经历了一场真正的革命,每年都会出现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准数据集(如CIFAR-10、CIFAR-)上创下新的精度记录。
下图显示了自年以来ImageNet数据集上机器学习模型的最高精度(第一次尝试时正确预测图像所含内容的准确性)的进展情况。
然而,在过去的几年里,深度学习最有趣的发展不是在图像领域,而是在自然语言处理(NLP)中,这是由AshishVaswani等人在年的论文“注意力是你需要的一切”中首次提出的。
论文
转载请注明:http://www.0431gb208.com/sjszlfa/2643.html