机器之心发布
作者:WeijieSu、XizhouZhu、YueCao、BinLi、LeweiLu、FuruWei、JifengDai
来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-LinguisticBERT,简称VL-BERT),该模型采用简单而强大的Transformer模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。
为了让VL-BERT模型利用更为通用的特征表示,作者在大规模图片描述生成数据集ConceptualCaptions中进行VL-BERT的预训练,实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT取得了当前单模型的最好效果。
论文
转载请注明:http://www.0431gb208.com/sjsbszl/2156.html