毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

研学周刊第十三期命名实体识别

来源:语言识别 时间:2022/6/20
治疗白癜风误区 http://pf.39.net/bdfyy/bdfyc/141212/4535768.html

1

命名实体识别

命名实体识别(NER)的目的是将非结构化文本中出现的某些单词或表达定位并分类到预定义的语义类别中,如人名、位置、组织等。命名实体识别是许多自然语言处理应用的基本预处理步骤,例如关系提取、事件抽取、问题回答等。在NER中融入文字信息主要有三种方式。第一种是流水线法。流水线的方法是先应用中文分词(CWS),然后使用基于词的NER模型。然而,流水线方法存在错误传播的问题,因为CWS的错误可能会影响NER的性能。第二种是联合学习CWS和NER任务。然而,联合学习模型必须依赖于CWS标注数据集,这些数据集代价高昂,并且在许多不同的分割标准下进行标注。第三个是利用自动构建的词典,它是在大型自动分词文本上预先训练的。词汇知识包括边界和语义信息。边界信息由词典单词本身提供,语义信息由预先训练的单词嵌入提供。与联合方法相比,该方法词库容易获取,不需要额外的标注CWS数据集。

2

常用方法介绍

命名实体识别从早期基于词典和规则的方法,到传统机器学习的方法,后来采用基于深度学习的方法,一直到当下热门的注意力机制、图神经网络等研究方法,命名实体识别技术路线随着时间在不断发展。

基于规则和字典的方法

基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价太大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

基于传统机器学习的方法

在基于机器学习的方法中,命名实体识别被当作是序列标注问题。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。采用的传统机器学习方法主要包括:隐马尔可夫模型(HiddenMarkovModel,HMM)、最大熵(MaximumEntropy,ME)、最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)。

基于深度学习的方法

近年来,在基于神经网络的结构上加入注意力机制、图神经网络、迁移学习、半监督学习等热门研究技术也是目前的主流研究方向。

NER使用深度学习的原因主要是:1.NER适用于非线性转化;2.深度学习避免大量的人工特征的构建,节省了设计NER功能的大量精力;3.深度学习能够通过梯度传播来训练,这样可以构建更复杂的网络;4.端到端的训练方式。

3

最新研究进展

《ModularizedInteractionNetworkforNamedEntityRecognition》

作者:FeiLi1,ZhengWang2?,SiuCheungHui2,LejianLiao1,DandanSong1?

会议信息

(1)摘要

尽管现有的命名实体识别(NER)模型已经取得了可喜的成绩,但它们存在着某些缺点。基于序列标签的NER模型在识别长实体方面表现不佳,因为它们只

转载请注明:http://www.0431gb208.com/sjszjzl/670.html