自然语言处理
NaturalLanguageProcessing
一、
自然语言处理方向介绍
自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。
二、
常用方法/算法介绍
从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
随着科技的进步,深度学习非常受欢迎,它是纯的数据驱动技术方案,需要从大规模标注数据中学习特定任务相关的复杂模式。因此,有些学者开始探索面向大规模无标注文本数据的深度学习模型,如Transformer、BERT、GPT等。
(1)Transformer
图1transformer结构图
Transformer模型在年,由Google团队中首次提出。Transformer是一种基于注意力机制来加速深度学习算法的模型,模型由一组编码器和一组解码器组成,编码器负责处理任意长度的输入并生成其表达,解码器负责把新表达转换为目的词。Transformer模型利用注意力机制获取所有其他单词之间的关系,生成每个单词的新表示。Transformer的优点是注意力机制能够在不考虑单词位置的情况下,直接捕捉句子中所有单词之间的关系。模型抛弃之前传统的encoder-decoder模型必须结合RNN或者CNN(ConvolutionalNeuralNetworks,CNN)的固有模式,使用全Attention的结构代替了LSTM,减少计算量和提高并行效率的同时不损害最终的实验结果。但是此模型也存在缺陷。首先此模型计算量太大,其次还存在位置信息利用不明显的问题,无法捕获长距离的信息。
(2)BERT
图2BERT结构图
BERT的全称是BidirectionalEncoderRepresentationfromTransformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的maskedlanguagemodel(MLM),以致能生成深度的双向语言表征。
以往的预训练模型的结构会受到单向语言模型(从左到右或者从右到左)的限制,因而也限制了模型的表征能力,使其只能获取单方向的上下文信息。而BERT利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer其每一个token(符号)只会attend到目前往左的token,而双向的Transformer其每一个token会attend到所有的token。)来构建整个模型,因此最终生成能融合左右上下文信息的深层双向语言表征。预训练后,只需要添加一个额外的输出层进行fine-tune,就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。
但BERT也有一定的缺点,模型在训练时的收敛速度较慢;无法完成文档级别的NLP任务,只适合于句子和段落级别的任务;对硬件资源消耗巨大。
(3)GPT
图3GPT结构图
GPT模型的全称是GenerativePre-Training,中文名字是生成式预训练模型,这种模型和BERT模型最大的区别就是它使用的是transformer模型的解码层,也就是decoder部分的框架。所以这种GPT模型天然地就适合做输入的补全,因为它在训练的时候对于下文的内容是完全隔离的,因为transformer里的decoder层是加入了mask遮挡的,所以GPT被训练好以后就可以拿来直接做输入补全,相当于只用了“上文信息”,没有使用“下文信息”。GPT模型分为两个阶段,第一阶段是根据海量的无标签数据进行训练,得到一个Pre-Training的预训练模型,然后根据实际的NLP任务,比如智能问答、输入补全等任务去进行模型的Fine-Tuning精调。
三、
最新研究进展
1.《PackedLevitatedMarkerforEntityandRelationExtraction》
(1)作者:
DemingYe,YankaiLin,PengLi,
MaosongSun
(2)发表期刊信息
会议:ACL
等级:CCFA类
年份:
(3)摘要
最近的命名实体识别和关系抽取工作专注于研究如何从预训练模型中获得更好的跨度表示。然而,许多工作忽略了跨度之间的相互关系。在这篇文章中,我们提出了一种基于悬浮标记的跨度表示方法,我们在编码过程中通过特定策略打包标记来考虑跨度之间的相互关系。对于命名实体识别任务,我们提出了一种面向邻居跨度的打包策略,以更好地建模实体边界信息。对于关系抽取任务,我们设计了一种面向头实体的打包策略,将每个头实体以及可能的尾实体打包,以共同建模同头实体的跨度对。通过使用增强的标记特征,我们的模型在六个NER数据集上优于基线模型,并在ACE04/ACE05端到端关系抽取数据集上以更快的速度获得了4F1以上的提升。论文代码开源于
转载请注明:http://www.0431gb208.com/sjszjzl/385.html