资料源:ACLTutorial-Vision-LanguagePretraining:CurrentTrendsandtheFuture(vlp-tutorial-acl.github.io)
Vision-LanguagePretraining:CurrentTrendsandtheFuture
AnACLtutorialbyAishwaryaAgrawal(DeepMind,UniversityofMontreal,Mila),DamienTeney(IdiapResearchInstitute),andAidaNematzadeh(DeepMind).
目标:本教程的目标是概述处理多模态问题所需的要素,特别是视觉和语言。我们还将讨论该领域的一些开放性问题和有前景的未来方向。
在过去几年中,人们对建立多模态(视觉语言)模型越来越感兴趣,该模型是在更大但噪声更大的数据集上预训练的,其中两种模态(例如图像和文本)松散地相互对应(例如,ViLBERT和CLIP)。
给定一项任务(如视觉问答),这些模型通常会在特定任务的监督数据集上进行微调。除了更大的预训练数据集,transformer架构,特别是应用于两种模式的self-attantion,是最近预训练模型在下游任务上的出色表现的原因。
这种方法之所以吸引人,有几个原因:首先,预训练数据集通常是从网络上自动管理的,提供了巨大的数据集,收集成本可以忽略不计。第二,我们可以训练大型模型一次,并将其用于各种任务。最后,这些预训练方法比以前的任务特定模型表现更好或相当。一个有趣的问题是,除了良好的任务性能之外,这些预先训练的模型是否学习了更善于捕捉两种模式之间对齐的表示。
在本教程中,我们将重点介绍最近的视觉语言预训练范例。我们的目标是在多模态预训练区域之前,首先提供图像-语言数据集、基准和建模创新的背景。接下来,我们将讨论用于视觉语言预训练的不同系列模型,强调它们的优缺点。最后,我们讨论了通过统计学习进行视觉语言预训练的局限性,以及对替代方法(如因果建模)的需求。
接下来,我将从3个部分展示:第1部分:视觉-语言预训练前的视野。(主要讲预训练之前的多模态任务和数据集)第2部分:视觉-语言预训练的现代视野。(主要讲预训练结构、数据、评测等)第3部分:超越统计学习。(可解释性)
第一部分:Vision-LanguagelandscapebeforethePretrainingEra
公共的VL任务(CommonVLtasks)
图像索引(ImageRetrieval):Highlevelsimilarity,Easyevaluation(recall
k)指代表达物体(GroundingReferringExpressions):空间位置(SpatialLocalization),细粒度(FinerGrainedgrounding),Easyevaluation。图像描述(ImageCaptioning):语言生成(Languagegeneration),不容易评估(Difficultautomaticevaluation)视觉问答(VisualQuestionAnswering):从图中获取特定信息,相对容易评估。视觉对话(VisualDialog):额外的上下文建模,很难去评估自由形式的答案。为什么要有视觉和语言多模态?直觉:人类是在多模态环境中学习的。应用:对视觉障碍人士对帮助。网上购物或整理图片。科学:视觉识别。视觉理解。视觉中的语言。组合推理。常识推理。
任务指定的数据集和模型(Taskspecificdatasetsandmodels)
常用的模型结构:
常用的数据集:
这里聊一下VQA:
EvaluationCode
为了与“人类精度”保持一致,机器精度在所有10组中取平均值。选择9组人类注释器。
多模态社区获得了什么?(Whatdidthe
转载请注明:http://www.0431gb208.com/sjszlff/4642.html