毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

万字深度好文视觉语言VL智能任务

来源:语言识别 时间:2022/5/27
北京白癜风专业医院 https://wapyyk.39.net/bj/zhuanke/89ac7.html

本文仅用于学术分享,编辑浪道,版权属于原作者,若有侵权,请联系删除。

来源丨AI干货知识库

本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段:

第一个阶段是-年,其间,专门的模型被设计用于不同的任务。第二个时代是-年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着年CLIP的出现,第三个时代开始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。

我们相信这篇综述将有助于人工智能(AI)和机器学习(ML)的研究人员和实践者,特别是那些对计算机视觉和自然语言处理感兴趣的人。

论文

转载请注明:http://www.0431gb208.com/sjslczl/387.html

  • 上一篇文章:
  • 下一篇文章: 没有了