01第三章
02文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
导读:
将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统
3.1实体抽取的方法
深度学习是一个由多个处理层组成的机器学习领域,用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络,由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和,并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据,并自动发现分类或检测所需的潜在表示和处理。
将深度学习技术应用于NER有三个核心优势。首先,NER受益于非线性转换,它生成从输入到输出的非线性映射。与线性模型(如对数线性HMM和线性链CRF)相比,基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。第二,深度学习节省了设计NER特性的大量精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面,基于DL的模型可以有效地从原始数据中自动学习有用的表示和底层因素。第三,通过梯度下降,可以在端到端的范式中训练深层神经NER模型。该特性使我们能够设计可能复杂的NER系统。
一个基于深度学习的NER模型应该具备如下图所示的三部分:
1.分布式向量输入
2.上下文编码结构
3.标签解码结构
3.1.1分布式向量输入
表示单词的一个简单选项是一维特征向量表示。在一维特征向量空间中,两个不同的单词具有完全不同的表示形式,并且是正交的。分布式表示表示低维实值密集向量中的单词,其中每个维度表示一个潜在特征。分布式表示从文本中自动学习,可以捕获单词的语义和句法属性,这些属性在输入到NER时不会显式出现。接下来,将介绍NER模型中使用的三种分布式表示:单词级、字符级和混合表示。
3.1.1.1.词级别向量(word-levelrepresentation)
一些研究采用了词级别表示法,通常通过无监督算法(如连续词袋(CBOW)和连续skip-gram模型)对大量文本集合进行预训练。《Deepactivelearningfornamedentityrecognition》和《Designchallengesandmisconceptionsinneuralsequencelabeling》的研究表明了这种预先训练的单词嵌入的重要性。作为输入,预训练的单词嵌入可以在NER模型训练期间固定或进一步微调。常用的单词嵌入包括GoogleWord2Vec、StanfordGloVe、FacebookfastText和SENNA。
《Biomedicalnamedentityrecognitionbasedondeepneutralnetwork》提出了Bio-NER,这是一种基于深度神经网络架构的生物医学NER模型。在PubMed数据库上使用skip-gram模型对Bio-NER中的单词表示进行训练。这本词典包含了维向量中的个单词。《Towardmentiondetectionrobustnesswithrecurrentneuralnetworks》使用word2vec工具包从Gigaword语料库学习英语单词嵌入,并使用BOLT(广泛操作语言技术)的新闻组数据进行增强。
《Neuralmodelsforsequencechunking》设计了一个序列组块的神经模型,该模型由两个子任务组成:分割和标记。神经模型可以输入番泻叶嵌入或随机初始化嵌入。
《Jointextractionofentitiesandrelationsbasedonanoveltaggingscheme》使用单一模型联合提取实体和关系。该端到端模型使用word2vectookit在纽约时报语料库上学习的单词嵌入。
《Fastandaccurateentityrecognitionwithiterateddilatedconvolutions》提出了一种基于迭代扩张卷积神经网络(IDCNN)的标签方案。在他们的模型中,查找表是由在SENNA语料库上通过skip-n-gram训练的维嵌入来初始化的。《Jointextractionofmultiplerelationsandentitiesbyusingahybridneuralnetwork》在他们提出的提取属性及其关系的神经模型中,使用了来自谷歌的经过预训练的维单词向量。此外,GloVe和fastText也广泛用于NER任务。
3.1.1.2.字符级别向量(character-levelrepresentation)
《Charner:Character-levelnamedentityrecognition》和《Namedentityrecognitionwithstackresiduallstmandtrainablebiasdecoding》的研究结合了从端到端神经模型学习到的基于字符的单词表示,而不是仅将单词级表示作为基本输入。字符级表示对于利用显式子词级信息(如前缀和后缀)非常有用。字符级表示的另一个优点是,它可以自然地处理词汇表之外的内容。因此,基于字符的模型能够推断出看不见的单词的表示,并共享语素级规则的信息。有两种广泛用于提取字符级表示的体系结构:基于CNN的模型和基于RNN的模型。下图(a)和(b)说明了这两种体系结构。
《End-to-endsequencelabelingviabidirectionallstm-cnns-crf》利用CNN提取单词的字符级表示。然后,将字符表示向量与单词嵌入相连接,然后将其送入RNN上下文编码器。同样,《Leveraginglinguisticstructuresfornamedentityrecognitionwithbidirectionalrecursiveneuralnetworks》应用了一系列卷积层和高速公路层来生成单词的字符级表示。单词的最终嵌入被反馈到一个双向递归网络中。《Neuralrerankingfornamedentityrecognition》提出了NER的神经重排序模型,其中在字符嵌入层的顶部使用具有固定窗口大小的卷积层。《Deepcontextualizedwordrepresentations》提出了ELMo单词表示法,它是在具有字符卷积的两层双向语言模型的基础上计算的。
在基于RNN的模型中,长短时记忆(LSTM)和选通循环单元(GRU)是两种典型的基本单元选择。《Charner:Character-levelnamedentityrecognition》提出了CharNER,这是一种与语言无关的字符级标记器。CharNER将句子视为字符序列,并利用LSTM提取字符级表示。它为每个字符而不是每个单词输出标记分布。然后从字符级标签中获取单词级标签。他们的研究结果表明,以字符为主要表征优于以单词为基本输入单位。《Neuralarchitecturesfornamedentityrecognition》利用双向LSTM提取单词的字符级表示。与《End-to-endsequencelabelingviabidirectionallstm-cnns-crf》类似,字符级表示与单词查找表中预先训练的单词级嵌入连接在一起。《Character-levelneuralnetworkforbiomedicalnamedentityrecognition》研究了单词嵌入和字符级表示在识别生物医学命名实体中的作用。《Attendingtocharactersinneuralsequencelabelingmodels》使用选通机制将字符级表示与单词嵌入相结合。通过这种方式,Rei的模型可以动态地决定从字符级或单词级组件中使用多少信息。《Namedentityrecognitionwithstackresiduallstmandtrainablebiasdecoding》介绍了一种具有堆栈剩余LSTM和可训练偏差解码的神经NER模型,其中从单词嵌入和字符级RNN中提取单词特征。《Multi-taskcross-lingualsequencetaggingfromscratch》开发了一个统一处理跨语言和多任务联合训练的模型。他们使用深度双向GRU学习信息丰富的形态扩张卷积神经网络(IDCNN)。在他们的模型中,查找表是由在SENNA语料库上通过skip-n-gram训练的维嵌入来初始化的。
使用RNN网络进行语言建模的最新进展使语言建模成为字符上的分布成为可能。《Contextualstringembeddingsforsequencelabeling》的上下文字符串嵌入使用字符级神经语言模型为句子上下文中的字符串生成上下文嵌入。一个重要的特性是,嵌入是由其周围的文本语境化的,这意味着同一个词根据其上下文用途有不同的嵌入。下图展示了在句子上下文中提取嵌入单词“Washington”的上下文字符串的体系结构。
3.1.1.3混合信息向量(hybridrepresentation)
除了词级别向量、字符级别向量外,一些研究工作还嵌入了其他一些语义信息,如词汇相似度、词性标注、分块、语义依赖、汉字偏旁、汉字拼音等。此外,还有一些研究从多模态学习出发,通过模态注意力机制嵌入视觉特征。论文也将BERT归为这一类,将位置嵌入、token嵌入和段嵌入看作是混合信息向量。
除了单词级和字符级表示,一些研究还将附加信息(例如地名录、词汇相似性、语言依赖性和视觉特征)纳入单词的最终表示,然后再输入上下文编码层。换句话说,基于DL的表示以混合方式与基于特征的方法相结合。
添加额外的信息可能会提高NER性能,代价是损害这些系统的通用性。神经模型在NER中的应用由《Naturallanguageprocessing(almost)fromscratch》开创,其中提出了一种基于词序列上的时间卷积神经网络的体系结构。当合并常见的先验知识(例如地名录和词性)时,结果系统的性能优于仅使用单词级表示的基线。在《Bidirectionallstm-crfmodelsforsequencetagging》的BiLSTM-CRF模型中,NER任务使用了四种类型的特征:拼写特征、上下文特征、单词嵌入和地名索引特征。他们的实验结果表明,额外的特征(即地名录)提高了标签的准确性。
《Namedentityrecognitionwithbidirectionallstm-cnns》提出的BiLSTMCNN模型结合了双向LSTM和角色级CNN。除了单词嵌入,该模型还使用了额外的单词级特征(大写、词汇)和字符级特征(表示字符类型的四维向量:大写、小写、标点符号等)。
《Diseasenamedentityrecognitionby
转载请注明:http://www.0431gb208.com/sjszlff/4690.html