毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

一年一总结的NLP年度进展,2021年有

来源:语言识别 时间:2023/3/14

选自ruder.io

作者:SebastianRuder

机器之心编译

机器之心编辑部

年已经过去,这一年里,机器学习(ML)和自然语言处理(NLP)又出现了哪些研究热点呢?谷歌研究科学家SebastianRuder的年度总结如约而至。

年,ML和NLP领域取得了很多激动人心的进展。在SebastianRuder的最新博客《MLandNLPResearchHighlightsof》中,他介绍了自己认为最具有启发意义的论文和研究领域。

文章涵盖了15个研究热点,具体如下:

通用预训练模型

大规模多任务学习

Transformer架构替代方案

提示(prompting)

高效的方法

基准测试

条件图像生成

与自然科学结合的机器学习

程序合成

偏见

检索增广

Token-free模型

时序自适应

数据的重要性

元学习

通用预训练模型

年研究者开发了更大的预训练模型。预训练模型可以应用于不同的领域,对ML研究至关重要。在计算机视觉中,有监督预训练模型如VisionTransformer继续被扩展,而自监督预训练模型性能也在不断提高。在语音方面,基于wav2vec2.0模型(如W2v-BERT),以及更强大的多语言模型(如XLS-R)已经被构建出来。与此同时,新的统一预训练模型可用于不同的模态(例如视频和语言等)。在视觉和语言方面,对照研究揭示了这种多模态模型的重要组成部分。此外,预训练模型在强化学习和蛋白质结构预测等其他领域也取得了巨大进展。

为什么预训练模型如此重要?预训练模型已被证明可以很好地泛化到给定领域或不同模态中。它们表现出较强的小样本学习行为和良好的学习能力。因此,预训练模型是进行科学研究和实际应用的重要组成部分。

下一步是什么?我们无疑将在未来看到更多甚至更大的预训练模型。同时,我们应该期望单个模型同时执行多个任务。在语言任务中,模型以通用的文本到文本格式构建执行不同的任务。同样,我们可能会看到在单个模型中执行图像和语音任务的模型。最后,我们将看到更多的、针对多模态进行训练的模型。

大规模多任务学习

上一节中的大多数预训练模型都是自监督的,它们从大量未标记的数据中学习。然而,对于许多领域,已经有大量标记数据可用,可用于学习更好的表示。到目前为止,T0、FLAN和ExT5等多任务模型已经在大约个任务上进行了预训练,可用于语言任务。如此大规模的多任务学习与元学习密切相关。通过访问不同的任务分配,模型可以学习不同类型的行为,比如如何在上下文中学习。

为什么多任务模型很重要?T5、GPT-3等许多模型可以使用文本到文本格式,因此可以进行大规模多任务学习。因此,模型不再需要手工设计的、特定于任务的损失函数或特定于任务的层,以便有效地跨多个任务学习。这些方法突出了将自监督预训练与监督的多任务学习相结合的好处,并证明了两者的结合会产生更通用的模型。

下一步是什么?鉴于数据集(统一格式)的可用性和开源性,我们可以想象一个良性循环,新创建的高质量数据集可用于不同的任务,以训练更强大的模型,然后这些模型可以在循环中被用来创建更具挑战性的数据集。

Transformer架构替代方案

前几节中讨论的大多数预训练模型都是基于Transformer架构的。年出现了替代的模型架构,这些架构是transformer的可行替代方案。Perceiver是一种类似transformer的架构,它通过使用固定维度的潜在数组作为其基本表示并通过交叉注意力在输入上进行调节,从而可以扩展到非常高维的输入。PerceiverIO通过扩展架构,可以处理结构化的输出空间。还有一些模型试图替换自注意力层,最著名的是使用多层感知器(MLPs),如MLP-Mixer和gMLP。FNet使用1DFourierTransforms而不是self-attention在token级别混合信息。一般来说,将架构与预训练策略解耦是很有用的。如果CNN以与Transformer模型相同的方式进行预训练,它们将在许多NLP任务上实现具有竞争力的性能。同样,使用可替代的预训练目标(例如ELECTRA-style的预训练)可能会带来更多收益。

为什么替代Transformer架构很重要?如果大多数研究都集中在单一架构上,这将不可避免地导致偏见、盲点等一系列错误。新模型可能会解决一些Transformer的限制,例如注意力的计算复杂性、黑盒性质等。

下一步是什么?虽然预训练transformer会被继续部署,作为许多任务的标准基线,我们应该期待看到可替代的架构被提出。

提示(Prompting)

由于GPT-3的普及,使得提示(prompting)已成为NLP模型中一种可行的替代输入格式。提示包括模式(即要求模型进行特定预测)和将预测转换为类标签的语言器(verbalizer)。PET、iPET和AdaPET等几种方法利用提示进行小样本学习,然而,提示并不是万能的。模型的性能因提示而异,找到最佳提示仍然需要标记示例。为了在少量设置中比较模型的可靠性,我们需要不断的开发新的评估程序。

为什么提示很重要?提示可用于对特定任务信息进行编码,根据任务的不同,这些信息可能高达3,个标记示例。因此,提示是一种将专家信息纳入模型训练的新方法,而不是手动标记示例或定义标记函数。

下一步是什么?目前,我们只是触及了使用提示来改进模型学习。在以后的研究中,提示将变得更加复杂,例如包括更长的指令、正例和负例、一般启发式。提示也可能是将自然语言解释纳入模型训练的一种更自然的方式。

高效的方法

预训练模型的一个缺点是,它们通常非常大,而且在实践中效率低下。年研究者带来了更高效的架构和更高效的微调方法。在建模方面,我们可以看到几个更有效的自注意力版本。当前预训练模型非常强大,只需更新少量参数即可有效地调节模型,这促进了基于连续提示和适配器(adapter)等更有效的微调方法的发展。高效的方法还可以通过学习适当的前缀(prefix)或适当的转换来适应新的模式。

为什么高效的方法很重要?如果模型在标准硬件上运行不可行或过于昂贵,那么它们就没有意义。效率的提高将确保模型在变得更大的同时,对实践人员有益并易于使用。

下一步是什么?高效的模型和训练方法应该变得更容易使用和更容易获得。同时,社区应该开发更有效的方式来与大模型交互,并有效地适应、组合或修改它们,而无需从头开始预训练新模型。

基准测试

近来ML和NLP模型的快速改进已经超越了许多基准度量的能力。与此同时,社区评估的基准越来越少,这些基准只来自少数精英机构。因此,年出现了很多能够可靠评估此类模型的方法的实践与讨论,我在这篇博文中对此进行了介绍。

年在NLP社区中出现的重要排行榜形式包括动态对抗性评估、社区驱动型评估(社区成员合作创建评估数据集,例如BIG-bench)、跨多种错误类型的交互式细粒度评估、超越单一性能指标评估模型的多维评估。此外,领域内针对有影响力的设置还提出了新的基准,例如小样本评估和跨域泛化。一些用于评估通用预训练模型的新基准也应运而生,包括用于语音、特定语言等特定模态的基准和跨模态基准。

另一方面,评估指标也是应该

转载请注明:http://www.0431gb208.com/sjszlff/3715.html

  • 上一篇文章:
  • 下一篇文章: 没有了