选自realworldnlpbook
作者:MasatoHagiwara
机器之心编译
参与:GeekAI、路
本文介绍了如何利用AllenNLP,使用不到一百行代码训练情感分类器。
什么是情感分析?
情感分析是一种流行的文本分析技术,用来对文本中的主观信息进行自动识别和分类。它被广泛用于量化观点、情感等通常以非结构化方式记录的信息,而这些信息也因此很难用其他方式量化。情感分析技术可被用于多种文本资源,例如调查报告、评论、社交媒体上的帖子等。
情感分析最基本的任务之一是极性分类,换句话说,该任务需要判断语言所表达的观点是正面的、负面的还是中性的。具体而言,可能有三个以上的类别,例如:极其正面、正面、中性、消极、极其消极。这有些类似于你使用某些网站时的评价行为(比如Amazon),人们可以用星星数表示5个等级来对物品进行评论(产品、电影或其他任何东西)。
斯坦福的情感分析树库(TreeBank)
目前,研究人员发布了一些公开的情感分类数据集。在本文中,我们将使用斯坦福的情感分析树库(或称SST),这可能是最广为使用的情感分析数据集之一。SST与其它数据集最大的不同之处是,在SST中情感标签不仅被分配到句子上,句子中的每个短语和单词也会带有情感标签。这使我们能够研究单词和短语之间复杂的语义交互。例如,对下面这个句子的极性进行分析:
Thismoviewasactuallyneitherthatfunny,norsuperwitty.
这个句子肯定是消极的。但如果只看单个单词(「funny」、「witty」)可能会被误导,认为它的情感是积极的。只
转载请注明:http://www.0431gb208.com/sjszjzl/4437.html