本文仅用于学术分享,编辑浪道,版权属于原作者,若有侵权,请联系删除。
来源丨AI干货知识库
本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段:
第一个阶段是-年,其间,专门的模型被设计用于不同的任务。第二个时代是-年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着年CLIP的出现,第三个时代开始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。
我们相信这篇综述将有助于人工智能(AI)和机器学习(ML)的研究人员和实践者,特别是那些对计算机视觉和自然语言处理感兴趣的人。
论文
转载请注明:http://www.0431gb208.com/sjslczl/387.html