毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

AAAI2021最佳论文Informe

来源:语言识别 时间:2022/12/18
怎样预防儿童白癜风 https://m-mip.39.net/man/mipso_4829678.html

作者

周号益,彭杰奇

单位北京航空航天大学

自年,AshishVaswani等人在《AttentionIsAllYouNeed》这篇文章种提出了Transformer模型后,BERT等工作极大地扩展了该模型在NLP等任务上的影响力。随之,有关Transformer模型的改进和应用逐渐成为人工智能研究的一大热门。

回顾Transformer模型的起源,其最初作为有效顺序语言建模的新方法提出,虽然只使用自注意力机制(Self-attentionMechanism)进行网络结构建模,但它拥有更强的捕捉序列数据依赖的能力。此后得益于预训练模型的发展和普及,Transformer类模型极大地推动了自然语言处理的下游任务的发展。

虽然获得了广泛的应用,Transformer模型本身存在的内存开销和计算效率的瓶颈,也催生了大量改进Transformer以减小开销并提升效果的研究。

与此同时,Transformer模型也不再仅限于自然语言处理领域的应用,很多研究者将Transformer引入到推荐系统、时间序列预测、计算机视觉、图神经网络以及多模态等领域,在多个领域呈现热点研究的趋势。

在2月4日召开的AAAI上同样涌现了大量和Transformer相关的研究,本文约覆盖40余篇论文,将从Self-Attention变体、更高效的模型架构、更深入的分析和更多样的应用几个方面对本次大会中的Transformer最新进展进行介绍。

1

自注意力极致的变体

自注意力机制是一种特殊的attention模型,简单概括是一种自己学习自己的表征过程。

特别地,自注意力的计算/内存开销是随输入/输出的序列长度呈二次相关的,这导致大规模的Transformer模型必须使用大量计算资源,昂贵的训练和部署成本阻碍了模型的应用;同时这也会限制Transformer模型对于长序列数据的处理能力。

因此研究自注意力机制的变体,实现高效Transformer成为了一个重要的研究方向。

Informer[1]基于自注意力机制中存在的查询稀疏性(attention的长尾分布),选择top-u进行query-key对的部分计算,提出了ProbSparseSelf-Attention替代标准的Self-Attention,将自注意力机制的内存和计算开销从

减少到

Nystrmformer[2]将Nystrm方法应用于自注意力机制的近似,利用landmark(作者称之为Nystrm)point来重构Self-Attention中的Softmax注意力矩阵,从而避免n×n矩阵计算,得到了在内存和时间开销上复杂度为

的近似。

2

更高效的自注意力模型架构

除了对自注意力机制本身进行改变,主动压缩模型结构并取得与原始网络结构相近的效果,这也是一种获得高效的Transformer的重要手段。

[3]基于Transformerdecoder的数学推导,证明了在适当条件下压缩Transformer的基本子层来简化模型结构并获得更高的并行度是可行的,并提出了子层数量为1的Decoder的来压缩Transformer,在提高推理速度的同时不降低性能。

Informer[1]除了提出在时序问题下使用自注意力蒸馏机制,每层Encdoer都将输入序列的长度减小一半,从而大大减小了Encoder内存开销和计算时间;同时提出在Decoder结构中使用生成式结构,能够一次生成全部预测序列,极大减小了预测解码耗时。

CPTransformer[4]通过类比在动态图上形成hyperedge的方式,整合token的embedding来实现序列的压缩,在音乐建模中使用更短的训练和推理时间生成了与Transformer-XL质量相当的完整钢琴曲。

FasterDepth-AdaptiveTransformer[5]提出了基于互信息和重建损失的两种估计方法,提前估计所需深度,得到了一个相比原始Transformer速度快7倍,且效率与鲁棒性相对其他深度自适应方法均有提高的深度自适应网络。

此外,GPKD[6]是一种基于组排列的知识蒸馏方法,能够将深度Transformer模型压缩为浅层模型,且性能牺牲较小,其性能大大优于SKD方法。

LRC-BERT[7]提出了一种基于对比学习的知识蒸馏方法,从角度距离的角度来拟合中间输出,并在训练阶段引入了基于梯度扰动的训练体系以提高模型鲁棒性。

3

对Transformer架构更深入的分析

伴随Transformer的广泛应用,对于其内部工作机理的研究以及对模型的攻击和防护也更加关键。

[8]提出了一种自注意力归因方法,给出了Transformer内部的信息交互的一种诠释,利用归因得分推导出交互树,进一步合理可视化自注意力机制;该方法能识别出重要的注意头,形成了一种注意头修剪方法;并且还可以用来构造对抗触发器来实现非目标攻击。

AshimGupta等人[9]则研究了BERT家族中的大模型对于不连贯输入的响应,定义了简单的启发式方法来构造例子,使目前的模型都无法有效区分这些无效文本;同时这些输入可以被显式地加入训练,模型可以在不降低性能的情况下对此类攻击具有鲁棒性。

MadhuraPande等人[14]的研究提出了一个统一方法来分析Multi-headSelf-Attention中各注意头,通过筛选偏倚得分来获得分头功能作用,假设检验确保了统计显著性;作为一种新视角,作者同时还研究了任务微调对注意力角色的影响及关联问题。

4

将Transformer拓展到更多样的应用

值得

转载请注明:http://www.0431gb208.com/sjsbszl/2692.html

  • 上一篇文章:
  • 下一篇文章: 没有了