北京白癜风哪家最便宜 http://news.39.net/bjzkhbzy/170110/5196871.html你和“懂AI”之间,只差了一篇论文很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。读芯术读者论文交流群,请加小编。等你。这是读芯术解读的第8篇论文ACLShortPapers利用分词表示学习来提高中文社交网络命名实体识别ImprovingNamedEntityRecognitionforChineseSocialMediawithWordSegmentationRepresentationLearning约翰霍普金斯大学JohnsHopkinsUniversity命名实体识别和其他信息提取任务经常使用诸如词性标签或词块的语言特征。对于文本中不容易识别单词边界的语言,分词是生成NER系统功能的关键第一步。尽管使用词边界标记作为特征是有帮助的,但是帮助识别这些边界的标志可以为NER系统提供更丰富的信息。新的最先进的分词系统使用神经模型来学习预测词边界的表示。我们表明,这些与NER系统共同训练的相同表示,对中国社交媒体的NER产生显著的改善。在我们的实验中,用LSTM-CRF模型联合训练NER和分词比先前公布的结果产生了近5%的绝对改善。1引言(NER)(CollinsandSinger,;McCallumandLi,;NadeauandSekine,;JinandChen,;Heetal.,)已经成为一种流行社交媒体分析任务(Finin等,;Liu等,;Ritter等,;Fromreide等,;Li等,;Liu等,a)。许多使用社交媒体的下游应用程序,如关系抽取(BunescuandMooney,)和实体关联(Dredze等,;Ratinov等,),都依赖于首先确定提及的实体。毫不奇怪,社交媒体中的NER系统的准确性落后于新闻文本和其他形式领域的最先进的系统。尽管英语这种差距正在缩小(Ritter等,;Cherry和Guo,),但在其他语言如中国语言中仍然很大(Peng和Dredze,;Fu等,)。造成这种差距的一个原因是缺乏强大的上游NLP系统,为NER提供有用的功能,例如词性标注或分块(chunking)。Ritter等人()标注了这些系统的Twitter数据以改善TwitterNER标记器,然而,这些系统在大多数语言中并不存在于社交媒体中。另一种方法是Cherry和Guo()和Peng和Dredze(),他们依靠训练无监督的词向量代替这些上游系统,并在英文和中文社交媒体中分别取得了最新成果。NER在新闻领域也有同样的方法(Collobert和Weston,;Turian等,;Passos等,)。在中文、日文和韩文等亚洲语言中,分词是许多任务的关键第一步(Gao等,;Zhang等,;Mao等,)。Peng和Dredze()通过使用字符位置表示来编码分词信息,从而在社交媒体上显示了中文NER分词的价值。在本文中,我们调查更好的方法将词边界信息纳入中国社交媒体的NER系统。我们将最先进的中文分词系统(Chenetal.,)与中国最好的社交媒体NER模型(PengandDredze,)相结合。由于两个系统都使用了学习表示,我们提出了一个集成模型,允许联合训练学习表示,与基于分段输出的特征相比,为NER系统提供了关于从分词中学习的隐藏表示的更多信息。我们的综合模型与之前对中国社交媒体的NER和名义提及的最佳结果相比,实现了近5%的绝对改善。2模型我们提出了一个模型,使用学习表示的LSTM神经模型和中国社交媒体最好的NER模型(Peng和Dredze,),将最好的中文分词系统(Chenetal.,)用对数双线性CRF表示。我们从每个系统的简要回顾开始。2.1基于LSTM的分词Chen等人.()提出了单层、从左到右的LSTM进行中文分词。LSTM是一种循环神经网络(RNN),它使用一系列的门(输入、忘记和输出门)来控制记忆在模型的隐藏状态下如何传播。对于中文分词任务,将每个汉字初始化为一个d维向量,LSTM在训练过程中将对其进行修改。对于每个输入字符,模型学习一个隐藏的向量h。这些向量然后用于偏置线性变换来预测输出标签,在这种情况下是Begin,Inside,End,andSingleton(开始、内部、结束和单个)。对位置t的预测给出如下:其中Wo是变换参数的矩阵,bo是偏置参数的向量,h(t)是位置t处的隐藏向量。为了对标签依赖性进行建模,他们引入了转移分数Aij来度量从标签i∈T跳转到标签j∈T的概率。我们使用了与Chen等人()相同的模型。对相同的数据进行了训练(分段的中文新闻文章)。但是,我们采用了不同的训练目标。陈等人(年)采用了最大边缘目标函数,但是,虽然他们发现这个目标产生了更好的结果,我们观察到最大似然在我们的实验中产生了更好的分割结果。此外,我们试图将他们的模型与一个使用最大似然训练目标的对数线性CRF进行整合。为了一致性,我们还用最大似然训练目标训练了LSTM。用于预测分割的最大似然CRF目标函数是:示例对(ys,xs)是分词后的句子,在例子中,k是例子的索引和i是位置的索引。是通过CRF学习的标准转化概率。使用LSTM参数Λs来产生,即通过采用soft-maxover(1)获得输入句子k的位置i处的标签的传播概率。我们使用一阶马尔科夫模型。2.2NER的对数线性CRF模型Peng和Dredze()为中国社交媒体NER提出了对数双线性模型。他们使用标准的NER特征以及基于词向量的附加特征。通过微调这些向量,并用word2vec(Mikolov等,)的目标共同训练它们,所得到的模型是对数双线性的。典型的词表示为每个词类型提供一个单一的表示向量。然而,中文文本不是分词,使得输入到表示向量之间的映射不清晰。Peng和Dredze()探讨了中文的几种表示形式,包括使用字符嵌入对输入进行预分割,获得单词,以及根据单词在单词中的位置学习字符表示的组合方法。最后的表示取得了最大的改善。我们使用相同的想法,但是用LSTM学习的表示增强了它,并且使得CRF和LSTM参数之间的相互作用成为可能。更多细节在(§2.3)中描述。2.3采用分词表示来提升NER性能Peng和Dredze()对字符位置表示提供的改进表明,分词信息对NER有帮助。将其嵌入到一边,将这些信息包含在NER系统中的一个简单的方法是使用预测的分割标签作为特征向CRF添加特征。但是,这些功能本身可能会忽略分割模型中的有用信息。以前的研究表明,NLP任务中不同阶段的联合学习对中国人有帮助(Liuetal.,b;Zhengetal.,)。因此,我们寻求更深入的分词和NER模型之间的交互方法。LSTM分词或学习两种不同类型的表示:1)每个字符的表示和2)预测分割标记的隐藏向量。将这些丰富的表示压缩成小的特征集,为NER使用更丰富的分词相关信息带来了瓶颈。因此,我们尝试将这两个信息源直接纳入NER模型。由于对数双线性CRF已经支持词向量的联合训练,所以我们也可以使用联合目标函数将LSTM输出隐藏向量合并为动态特征。首先,我们用以下的LSTM参数来增强CRF:其中,k表示距离,j位置,而且,表示特征公式。这些特征现在取决于LSTM(ew)和LSTM的输出隐藏向量(hw)学习的向量表示。请注意,通过单独包含hw,我们创建对隐藏状态所依赖的所有LSTM参数(即权重矩阵)的依赖。我们试验包括输入表示和独立输出隐藏的向量,以及两个参数一起。图1显示了集成模型的示意图。图1中文分词和NER的联合模型。左侧是用于分词的LSTM模块,而右侧是用于NER的传统的基于特征的CRF模型。请注意,NER的线性链式CRF既可以访问专用于NER的特征提取器,也可以访问由LSTM模块产生的用于分词的表示。该版本的CRF是对数双线性CRF,它将嵌入表示和隐藏向量输入作为变量处理,并根据目标函数进行修改。因此,它可以将梯度传播回LSTM来调整参数。因此,分词和NER训练共享LSTM模块的所有参数。这有利于联合学习。联合训练在我们的综合模型中,LSTM参数用于预测分词和NER。所以我们制定了一个联合训练机制。我们最大化(加权)联合目标:其中λ在更好的分段或更好的NER之间折衷,并且Θ包括在两个模型中使用的所有参数。由于我们改进NER,我们考虑λ1的设置。3参数估计我们使用随机梯度下降(SGD)对所有模型进行训练。我们训练最多30个轮,当NER结果收敛于开发数据时停止。对于联合目标的每个部分,我们使用单独的学习率,如果开发结果在连续5个时期后没有改善,则学习速率会使学习速率衰减一半。Chen等人()在LSTM的输入层中引入了衰减机制。我们使用保存的开发数据来优化两个超参数:在区间[0.5,1]中的联合系数λ和区间[0,0.5]中的丢包率。所有其他的超参数设置为由Chen等人()为LSTM和PengandDredze()为CRF给出的值。我们使用交替优化策略来训练联合模型。由于分割数据集显著大于NER数据集,因此我们在每次迭代时对前者进行二次采样,使其与NER训练数据的大小相同,每次迭代中使用不同的子样本。我们发现子采样是关键的,它显著减少了训练时间,使我们能够更好地探索超参数空间。我们初始化LSTM输入向量表示与预训练字符位置表示,训练,,微博消息,来初始化LSTM的输入向量。我们使用了与Peng和Dredze()相同的参数,设置word2vec(Mikolovetal.,)来预训练词表示。4实验和分析4.1数据集我们使用与陈等人()的分词和PengandDredze()的NER一样的训练、发展和测试集分割。分词分词数据来自SIGHAN共享任务。我们用PKU部分,其中包括43,个单词作为训练集和4,个句子作为测试集。我们没有应用任何特殊的预处理。NER该数据集包含1,条新浪微博消息,标注了四种实体类型(人员、组织、位置和地理政治实体),包括命名和名词提及。我们注意到,分词数据集明显大于NER数据,这激励了我们在训练过程中的子采样(§3)。4.2结果与分析表1显示了在开发和测试集上NER的准确率、召回率以及命名(左)和名词(右)提及的F1结果。超参数根据开发数据进行调整,然后应用于测试。我们现在解释结果。表1NER对开发和测试数据进行命名和名词提及的结果我们从建立CRF基线(#1)开始,并显示添加分段特征的增益情况(#2)。然而,在Peng和Dredze()(#3)中将这些特征添加到完整模型(包含词表示)并没有改善结果(#4)。这可能是因为字符位置表示已经带有分割信息。用字符表示替换字符位置表示(#5)比(#3)得到更差的结果,但是从添加分割特征(#6)中受益。这证明了分词是有用的,并且字符位置表示有效地传达了词边界信息。我们现在考虑联合训练字符表示(#9),LSTM隐藏向量(#10)和联合两者(#11)的模型。他们都改进了最好的公布结果(#3)。联合训练LSTM隐藏向量(#10)比联合训练表示(#9)更好,可能是因为它们携带更丰富的单词边界信息。使用这两个表示达到单一最佳结果(#11):F1分数在命名上提高了4.3%,名词上提到了5.3%。最后,我们研究了从联合训练和预训练分割表示中获得的收益有多少。我们首先训练LSTM进行分词,然后使用训练好的词向量和隐藏向量作为NER的对数线性CRF模型的输入,并对这些表示进行微调。这个(#7)提高了2%的F1值,大约是联合训练整体改善的一半。5讨论Huang等人.()首次提出了递归神经网络与一个CRF叠加序列标记任务,应用于POS、分块和NER任务。最近的努力已经增加了字符级建模和探索不同类型的RNN(Lample等,;Ma和Hovy,;Yang等,)。这些方法已经为英国新闻和几个其他印欧语言的NER取得了最新的成果。然而,这项工作没有考虑到需要分词的语言,也没有考虑社交媒体。我们可以将我们的方法视为多任务学习(Caruana,;Ando和Zhang,;Collobert和Weston,),我们在两个任务中使用相同的学习表示(词向量和隐藏向量):分割和NER,它们使用不同的预测和解码层。结果#8显示排除附加的NER特征和共享联合训练LSTM的效果。尽管这没有像添加额外的NER特征的(#11)表现一样好,令人印象深刻的是,这个简单的架构实现了与Peng和Dredze()中最好结果的F1。虽然我们可以预期NER和分词结果都会得到改善,但是我们发现为NER调整的最佳联合模型的分割性能比独立分词模型效果差(F1为90.7%,93.3%)。这是因为调整λ意味着在两个任务之间进行选择;没有一个单一的设置取得了改善,这表明需要进一步的工作来改善模型结构和学习机制。其次,我们的分割数据来自新闻域,而NER数据来自社交媒体。众所周知,在社交媒体上采用在新闻领域训练的分割系统效果较差(Duanetal.,),但我们仍然在将模型应用到这些不同的领域方面有了很大的改进。这可能是因为我们能够在领域不匹配的情况下获得更好的结果,因为我们将LSTM模型的表示直接整合到我们的CRF中,而不是仅使用LSTM分割模型的预测。我们计划考虑扩大我们的模型,明确包含领域适应机制(YangandEisenstein,)。论文下载链接:
转载请注明:http://www.0431gb208.com/sjszjzl/6355.html