ACLLongPapers
通过联合嵌入文本和行为信息来处理垃圾评论检测中的冷启动问题
HandlingCold-StartProbleminReviewSpamDetectionbyJointlyEmbeddingTextsandBehaviors
中国科学院
ChineseAcademyofSciences
解决垃圾评论检测中的冷启动问题是一项紧迫而重要的任务。它可以帮助在线评论网站及时减轻垃圾内容发送者的破坏,但从未被以前的工作研究过。本文提出了一种新的神经网络模型来检测垃圾评论的冷启动问题,并通过共同嵌入文本和行为信息来表示新评论者的评论。实验结果表明,该模型具有较好的性能,具有较好的领域适应性。它也适用于非监督方式的大规模数据集。
1引言
随着网络产品评论数据的快速增长,人们在作出购买决定之前,习惯性地先阅读评论。评论通常包含消费者丰富的的个人经验。这显著影响了企业财务收益和业绩。现有研究表明,Yelp额外的半星评级导致餐馆更频繁地出售19%(Anderson和Magruder,年),Yelp的一星级增长导致收入增长了5-9%(Luca,)。不幸的是,这种做法给予冒名顶替者(称为垃圾内容发送者)强大的动机来与系统进行游戏。他们发布假评论或意见(称为垃圾评论)来宣传或抹黑某些有针对性的产品和服务。来自英国广播公司BBC的消息显示,约25%的Yelp评论可能是假的。因此,检测垃圾评论是非常迫切的,以确保在线评论继续受到信赖。
Jindal和Liu()做出了检测垃圾评论的第一步。大多数努力致力于通过后续工作来探索有效的语言和行为特征,以区分这种垃圾评论与真实的评论。然而,为了注意这种模式或形成行为特征,开发人员应该花费很长时间来观察数据,因为这些特征是基于统计数据的。例如,Mukherjee等人(c)提出的特征“活动窗口”是衡量评论者的活动新鲜度。通常需要几个月的时间才能计算出评论者的最后和第一次评论之间的时间戳差异。当最终形成特征时,可能已经形成了一些重大损失。因此,重要的是设计一个可以在新评论者发布后尽快检测出垃圾评论的算法。这是一个冷启动问题,这是本文的重点。
在本文中,我们假设当新的评论者发表一个评论时,我们必须立即识别假评论。不幸的是,这是非常困难的,因为用于检测假评论的可用信息非常少。基于统计学的传统行为特征只能在频繁的用户行为上发挥作用。获得的行为信息越多,传统行为特征越有效(参见第3节中的实验)。在冷启动的情况下,新的评论者只有一个行为:发表评论。因此,我们无法从数据中获取有效的行为特征。虽然,评论的语言特征不需要花费很多时间来形成,Mukherjeeetal.(c)已经证明,语言特征在检测现实中商业网站假评论识别方面不够有效,我们也获得注意到了这一点(细节见第3节)。
因此,冷启动垃圾评论问题的主要困难在于,新的评论者没有足够的行为来构建有效的行为特征。然而,现有评论员发表的丰富评论中有大量的文字和行为信息(图1)。我们可以使用现有的类似评论者的行为信息给新的评论者来近似模拟他的行为特征。我们认为,评论者的个人特征,如背景信息、动机和互动行为风格,对评论者的文字和行为信息有很大的影响。所以评论者的文本信息和行为信息是相互关联的(Li等人()的类似论据)。例如,学校的学生可能会在暑假期间选择青年旅馆,并在评论中倾向于评论房价。但是,商务旅行中的金融分析师可能会选择商务酒店,环境和服务是他们在评论中关心的。
为了在冷启动问题中增加新评论者的行为信息,我们首先尝试从现有评论中找到与新评论者类似的文本信息。有几种方法可以对垃圾评论的文本信息进行建模,如Unigram(Mukherjeeetal.,c),POS(Ott等,)和LIWC(语言查询和字数)(Newmanetal.,)。我们采用CNN(卷积神经网络)对评论文本进行建模,已经证明它可以捕捉使用传统的离散人工特征难以表达的复杂全局语义信息(RenandZhang,)。然后,我们采用与找到的文本信息相关的行为信息来近似模拟新评论者的行为信息。一个直观的方法是搜索最新的评论的最相似的现有评论,然后将发现的评论者的行为特征作为新的评论者的特征(详见5.3节)。然而,在评论图(图1)中存在着丰富的行为信息,传统的离散人工行为特征难以记录全局行为信息(Wangetal.,)。此外,由于在评论系统中没有明确的特征标签(第5.3节中的实验),传统特征无法捕捉评论者的个人特征。因此,我们提出了一种神经网络模型,将文本和行为信息共同编码成评论向量,用于解决垃圾评论检测的冷启动问题。通过对评论图结构进行编码(图1),所提出的模型可以以无监督的方式记录现有评论者的全局行为,并进一步记录评论者潜在的特征信息。这种联合学习的评论表示可以对评论者的文本和行为信息的相关性建模。当新的评论者发表评论时,提出的模型可以利用编码了类似文本信息和相关行为信息的词向量来表示该条评论。最后,将新评论者的词向量输入分类器,以确定它是否是垃圾评论。
图1Yelp的简化评论局部图
总的来说,我们的主要贡献包括:
据我们所知,这是首次在垃圾评论检测中探讨冷启动问题的工作。我们定性和定量地证明了传统的语言和行为特征在检测冷启动任务的垃圾评论方面是不够有效的。我们提出了一个神经网络模型,将文本和行为信息共同编码为冷启动垃圾评论检测任务的词向量输入。它是一种无监督的分布式表示模型,可以从大规模的未标记的审查数据中学习。两个领域(酒店和餐厅)的实验结果有效地验证了提出模型在冷启动垃圾评论检测任务中的有效性。
2相关工作
和Liu()做出了检测垃圾评论的第一步。随后的工作致力于探索有效特征和垃圾评论发送者的线索。
语言特征:Ottetal.()应用心理和语言学线索来识别垃圾评论;Harris()探讨了几种写作风格的特征。Feng等人(a)研究了用于审查垃圾评论检测的句法文体;XuandZhao()使用深层语言特征来发现欺骗性垃圾评论;Lietal.()研究了垃圾评论中的主题;Lietal.(b)进一步分析了语言用法的一般差异。Fornaciari和Poesio()证明了N-gram在检测欺骗性亚马逊书评中的有效性。Cagnina和Rosso()也探讨了N-gram的有效性。Lietal.(a)提出了基于一元和二元文法的积极的无标签学习方法;Kim等人()设计了一种深度语义分析框架。Haietal.()利用多重垃圾评论检测任务和可用的未标记数据的相关性,通过使用语言特征来解决垃圾评论标注数据的稀缺性。此外,(Ren和Zhang,)证明CNN模型比RNN和传统的离散人工语言特征更为有效。Hovy()使用N-gram生成模型来生成评论并评估其有效性。
行为特征:Limetal.()分析了评论者评级的行为特征;Jindal等()识别了异常评论模式,它可以代表评论中的可疑行为;Lietal.()提出了一种基于行为特征的双视点半训练共同训练方法。Feng等(b)研究垃圾评论发送者个人行为的分布情况。Mukherjee等人()研究了垃圾评论发送者的行为特征。Xieetal.(),Feietal.()等人对垃圾评论发送者的时间模式进行了调查。Lietal.()探讨了时间和空间模式。Wangetal.(),Akogluetal.()对该评价图进行了分析。Mukherjee等人(a)研究了评论流行度。Mukherjeeetal.(c)和Mukherjeeetal.(b)证明,评论者的行为特征比垃圾评论检测的语言特征更有效。基于这一结论,最近研究人员(Rayana和Akoglu,;KC和Mukherjee,)已经更加努力地采用评论者的行为特征来检测垃圾评论,其目的是捕捉评论者的行为,并假定那些与垃圾评论发布者行为类似的评论将是垃圾评论。Wangetal.()探索了一种通过全局行为信息学习评论表征的方法。Viviani和Pasi()聚焦在每个单一真实特征的聚合过程上。
3传统特征是否是有效
因为新评论者只发表了一个评论,而我们必须立即确定其是否是垃圾评论发布者,冷启动任务面临的主要挑战是,有关新评论者的现有信息非常差。新评论者只为我们提供一个评论记录。对于基于统计数据的大多数传统特征,它们不能自己形成且没有任何意义,例如在周末写的评论的百分比(Lietal.,)、用户评论的评级分布熵(Rayana和Akoglu,年)。为了研究传统特征在冷启动任务中是否有效,我们对Mukherjee等人(c)的Yelp数据集进行了实验。我们在年1月1日之前发布的现有评论中训练了具有不同功能的SVM模型,并对年1月1日以后新评论者发布的新评论进行了测试。结果如表1所示。
表1跨语言特征的SVM分类结果(LF,二元文法(Mukherjee等,b)),行为特征(BF:RL,RD,M-CS(Mukherjeeetal.,b))和行为信息丰富的行为特征(BF:RL,RD,M-CS)。训练和测试都使用平衡数据(50:50)。
3.1语言特征表现不佳
语言特征不需要花太多时间形成。但是Mukherjee等人(c)已经证明,与人群资料数据集的表现相比,语言特征在检测现实中商业网站的虚假评论方面不够有效(Ott等,)。他们表明,二元文法比其他语言特征表现得更好,如LIWC(Newmanetal.,;Pennebakeretal.,),局部语音序列模式(Mukherjee和Liu,),深层语法(Fengetal.,a),信息增益(Mukherjeeetal.,c)等。所以,我们用二元文法特征来进行实验。如表1(a,b)第1行所示,二元文法在酒店和餐厅领域的精确度仅为55%左右。这表明最有效的传统语言特征(即二元文法)无法在冷启动任务中有效检测垃圾评论
3.2行为信息仅在丰富信息情况下表现良好
由于没有足够的有关新评论者的可用信息,对于基于统计机制的大多数传统行为特征,他们无法形成且没有任何意义。我们调查了以前的工作,发现有三个行为特征可以应用于冷启动任务。它们由Mukherjee等人提出(b),即1.Reviewlength(RL):新评论者发表的新评论的长度;2.审查人员偏离(RD):新评论者对同一业务的其他评论的评估的绝对评级偏差;3.最大内容相似度(MCS):新评论者的评论与同一业务的其他评论之间的最大内容相似度(使用余弦相似度)。
表1(a,b)第2行示出了通过组合二进制特征和上述三个行为特征的实验结果。与仅使用二元文法相比,行为特征使酒店领域的准确性提高了5%左右(餐厅领域的2.7%)。精度有所提高,但平均只有近60%。这表明传统特征对于行为信息匮乏情况不够有效。此外,行为特征导致F1-score下降约4.6%,酒店和餐厅领域的召回率减少约19%。显然,与仅使用二元文法比较,行为特征存在更多的垃圾评论识别错误。它进一步表明,传统的行为特征歧视被匮乏的行为信息削弱。
进一步,我们使用大量行为信息进行的三个行为特征实验。当新评论者在几周后继续发布更多评论时,他们的行为信息就会变得更多。然后与冷启动时期匮乏的行为信息相比,评论系统可以获得足够的数据来提取行为特征。因此,与表1(a)第2行的结果相比,信息丰富的行为特征在酒店领域的准确性(6.4%)显著提高(表1(a)第3行)。但在餐厅领域只有0.6%。根据数据集的统计,我们发现新评论者在酒店领域第一次发布后平均发布了约54.4条评论,但平均而言,餐厅领域的新评论者平均只有10条评论。在酒店领域添加的行为信息比餐厅领域更丰富。这表明:
传统的行为特征只能在行为信息丰富的情况下发挥作用;获取越多的行为信息,传统行为特征越有效。
图2模型图
4模型
在冷启动任务中检测垃圾评论的难度在于新评论者的可用行为信息非常少。新评论者刚刚发布了一个评论,我们必须立即过滤,然而并没有任何历史评论提供给我们。正如我们所说,评论者的文本信息和行为信息是相互关联的。因此,为了增加新评论者的行为信息,我们尝试从现有评论中找到与新评论者类似的文本信息。然后我们将与发现的文本信息相关的行为信息作为新评论者最可能的行为信息。为此,我们提出了一种神经网络模型,将文本和行为信息共同编码到成冷启动的垃圾评论检测的输入词向量(如图2所示)。当新的评论者发表评论时,神经网络可以用类似的文本信息和词向量中编码的相关行为信息来表示评论。最后,将新评论的特征表示输入分类器,以确定它是否是垃圾评论。
4.1行为信息编码
图1是从Yelp网站简化的局部评论图。如图所示,评论图包含现有评论者的全局行为信息(足迹)。由于垃圾评论发送者和真实评论者的动机是完全不同的,所以他们行为信息的分布是不同的(Mukherjeeetal.,a)。有些企业(甚至是高信誉的)支付给佣金进行虚假评论,以促进他们的产品/服务和/或诋毁他们的竞争对手(Liu,)。因此,垃圾评论发送者的行为足迹是由企业的需求决定的。但真正的评论者只会对他们实际遇到的产品或服务发表评论。他们的行为足迹受到自身特点的影响。前人从这些行为信息中提取评论者的行为特征。但是,新评论在冷启动任务中是不切实际的。此外,传统离散特征不能有效地记录全局行为信息(Wangetal.,)。此外,评论系统中没有明确的特征标签,我们需要找到一种记录评论者足迹潜在字符信息的方式。
因此,我们通过利用与TransE类似的词向量学习模型将这些行为信息编码到我们模型中(Bordesetal.,)。TransE是一个可以对图形结构进行编码的模型,它代表了低维向量空间中的节点和边(头,平移/关系,尾)。TransE已经被证明,通过知识库分布式表示来描述图形结构的全局信息(Guu等,)。我们认为评论图中的每位评论者都以自己的观点描述产品,并撰写评论。当我们在低维向量空间中表示产品、评论者和评论时,评论表示可以被转化为平移向量,它将产品表示转换为评论表示。因此,如图2所示,我们将产品(酒店/餐馆)作为我们模型中TransE网络的头部,以评论者为转化(关系)部分,并将评论作为尾部。通过从现有大规模未标记的评论图中,我们在不提取任何传统的行为特征的基础上,将全局行为信息编码到我们的模型中,并记录评论者的潜在特征信息。
更正式地,我们将训练集中的边缘标准降至最低:
S表示训练集的三元组
,产品
产品集合(头部)),评论
评论集合(转化部分))和由CNN学习的评论文本向量
评论文本集合(尾部))。
三元组集合S’(方程(2))由训练三元组组成,包括产品或评论文本中随机选择的一个(但不能同时两个)。
是与欧氏距离平方的不相似函数。
表2Yelp全数据集统计(标注和未标注)。
表3Yelp标注数据集统计
表4训练和测试分类器的平衡数据集统计
4.2文本信息编码
将文本信息编码到我们的模型中,我们采用卷积神经网络(CNN)来学习代表现有的评论。通过统计,我们发现评论通常包括产品或服务的几个方面。例如,酒店评论可能会同时评论房价、免费无线网络连接和浴室。与递归神经网络(RNN)相比,CNN可以更好地对评论的不同方面进行建模。Ren和Zhang()证明,与传统离散人为设计特征和RNN模型相比,CNN可以捕捉复杂的全局语义信息,更有效地检测垃圾评论。如图2所示,我们将由CNN学习的评论词向量表示
作为尾部。
具体来说,我们将包含n个单词的评论文本表示为
,单词向量表示是
,D是单词向量维数。我们将固定长度窗口大小的级联单词向量作为线性层的输入,其被表示为
。因此,线性层Hi的输出由
计算,其中
是过滤器k的权值矩阵。我们利用最大池层来获取每个过滤器的输出。然后我们将tanh作为激活函数,并将输出连接成最终的评论词向量,表示为
。
4.3联合信息编码
为了模拟文本和行为信息的相关性,我们采用联合信息编码。通过从全局评论图中的联合学习,将现有垃圾评论发送者和真实评论者的文字和行为信息嵌入到词向量中。
此外,评级通常表示一条评论的情感极性,例如五星级意味着“喜欢”,一颗星意味着“不喜欢”。垃圾评论发送者通常会以较低的评级评价他们的目标产品,以达到败坏其名称的目的,并以高评级达到推广的目的。为了将情感极性的语义编码到评论词向量中,在我们的模型中同时学习了1-5星评级的词向量。它们被认为是联合学习中评论词向量的约束条件。它们的计算公式为:
一组被破坏的元组
由训练元组
组成,评价评级取代其相反的等级(即1为5,2为4,3为1或5)。
范数约束:
。
最终联合损失函数如下:
是超参数。
表5跨语言特征的SVM分类结果(LF,bigrams(Mukherjeeetal.,b),行为特征(BF:RL,RD,MCS(Mukherjeeetal.,b));SVM分类通过直观方法得出,通过编辑距离比找到最相似的现有评论,并将发现的评论者行为特征作为近似值(BFEditSim+LF),并通过直观的方法得到结果,找到最相似的通过平均预先训练的词向量(使用Word2Vec)(BFW2Vsim+W2V)表示评论;SVM分类结果是通过学习的评论向量(RE),学习评论的评级表示(RRE),我们模型获得的产品平均评级表示(PRE)结果。基于成对的,我们模型的在t-test上的统计学意义上提升了p0.)。
5实验
5.1数据集和评价标准数据集:为了评估所提出方法,我们对(Mukherjeeetal.,b,c;RayanaandAkoglu,)中使用的Yelp数据集进行了实验。Yelp数据集的统计数据列于表2和表3中。这里的评论产品是指酒店或餐厅。我们将年1月1日之前发布的现有评论作为训练我们嵌入式学习模型的数据集,并将年1月1日以后新评论者发布的第一批新评论作为测试数据集。表4显示了训练和测试分类器均衡数据集的统计。
评价指标:我们选择准确率(P),召回率(R),F1-score(F1),精确率(A)作为指标。
5.2我们的模型vs传统特征
为了说明我们模型的有效性,我们对公共数据集进行实验,并与最有效的传统语言特征进行比较,比如二元文法、三种可行的传统行为特征(RL,RD,MCS(Mukherjeeetal.,b))。结果如表5所示。对于我们的模型,我们将词向量维度设置为,将CNN过滤器的数量设置为,
为0.1,Z为2。超参数通过在开发数据集上使用网格搜索进行调整。产品和评论者词向量从一个均匀分布中随机初始化(Socheretal.,)。词向量是用CBOW模型(Word2Vec)预训练的维向量初始化的(Mikolovetal.,)。如表5所示,我们的模型在对酒店和餐馆领域的冷启动垃圾评论检测任务方面的表现更好。
评论词向量与传统的语言特征如二元文法相比,使用我们模型学习的评论表示导致F1提升了约3.4%,酒店领域的A增长约7.4%(餐馆领域F1中为1.1%,A为5.0%,如表5(a,b)的第1、5行所示)。与二元文法和传统行为特征的组合相比,使用我们模型获得的评论词向量结果,F1值提升约7.6%,酒店领域的A改善了约2.2%(餐馆领域F1为6.1%,F1为2.3%,如表5(a,b)行2,5所示)。平衡分配下的F1-Score(F1)反映了垃圾评论检测的能力。均衡语料下的分类精确率(A)反映了识别垃圾评论和真实评论的能力。实验结果表明,我们的模型在F1和A上同时显着优于传统方法。具有编码语言和行为信息的评论向量在检测冷启动任务的垃圾评论方面更有效。
评级表示正如我们在第4.3节中提到的,评论的评级通常意味着真实评论者的情感极性或垃圾评论发送者的动机。如表5(a,b)第6行所示,添加产品(酒店/餐厅)的评级表示和评价使F1和A更高。我们假设不同的评级表示是用不同语义含义编码的。它们反映了产品的平均评级与评论评级之间的语义分歧。在结果中,与LF相比,使用我们模型的最佳组合RE+RRE+PRE可以显着提高酒店领域的F1的5.5%和A的9.4%的提升(F1中为2.9%,A为2.9%域,如表5所示(a,b)行1,6)。与LF+BF相比,使用RE+RRE+PRE,酒店领域的A改善约为9.7%,酒店领域的A改善了4.2%(餐厅领域的F1为7.9%,A为3.5%,如表5(a,b)所示2,6)。
实验结果证明我们的模型是有效的。F1和A的改进证明,我们的模型在检测垃圾评论和识别真实评论方面表现良好。此外,酒店和餐馆领域的改进证明,我们的模式具有优秀的领域适应性。它可以通过大规模未标记的现有评论学习代表全局语言和行为信息的评论。
5.3我们的联合词向量vs直观模型如第1节所述,为了近似新评论者的行为信息,还有其他直观的方法。所以我们用两种直观的方法进行实验比较。一个是通过编辑距离比找到最相似的现有评论,并将发现的评论者的行为特征作为近似值,然后对行为特征和二元文法(BF_EditSim+LF)进行训练。另一个是通过余弦相似度来查找最相似的现有评论,它是预先训练的词表示(使用Word2Vec)的平均值,然后对行为特征和评论表示(BF_W2Vsim+W2V)进行训练。如表5所示,我们的联合词向量(Ours_RE和Ours_RE+RRE+PRE)显然比直观的方法表现更好,例如在酒店领域Ours_RE比BF_W2Vsim+W2V提升3.8%(Accuracy)和3.2%(F1)。实验表明,我们的联合嵌入更好地捕捉评论者特征,并对文本和行为信息的相关性进行建模。
5.4编码全局行为信息的有效性
为了进一步评估我们模型中全局行为信息编码的有效性,我们构建了一个独立的监督卷积神经网络,其具有与我们模型的CNN部分相同的结构和参数设置。在这个独立的监督CNN(表格6(a,b)行2)中没有任何评论图形或行为信息。如表6(a,b)第2,3行所示,与独立监督CNN所获得的评论表示相比,使用我们模型学习的评论表示结果,在酒店领域的F1改善约为9.0%,A的增加约为3.8%(在餐厅领域中F1中为7.9%,A为3.7%)。结果表明,我们的模型可以通过编码在词向量中的相关行为信息表示新评论者发表的新评论。我们模型的transE部分有效地记录了评论图的行为信息。因此,我们的模型通过共同嵌入文本和行为信息使其更有效,它有助于增加新评论者的行为信息。
5.5CNN的有效性
与最有效的语言特征(例如二元文法)相比,我们的独立监督卷积神经网络在A中的表现优于F1(如表5(a,b)行1,2)所示。这表明CNN在识别垃圾评论上能更好地识别真实的审查。我们假设可能的原因是由于CNN善于对评论的不同语义方面进行建模。而真正的评论者通常会根据自己的个人真实经历来描述酒店或餐厅的不同方面,但垃圾评论发送者只能用自己的无限想象来伪造虚假评论。Mukherjeeetal.,(b)也证明,垃圾评论发送者和非垃圾评论发送者的不同心理状态导致垃圾评论和非垃圾评论之间的重大语言差异。
6结论
本文分析了垃圾评论识别中冷启动挑战的重要性和难度。我们提出了一个神经网络模型,共同嵌入了现有的文本和行为信息,用于在冷启动任务中检测垃圾评论。它可以以无监督的方式学习用类似的文本信息和相关的行为信息来表示新评论者的新评论。然后,应用分类器来检测垃圾评论。实验结果证明,提出的模型实现了有效的性能,具有优秀的领域适应性。它也适用于无监督方式的大规模数据集。据我们所知,这是垃圾评论检测的第一个处理冷启动问题的工作。我们将在未来探索更有效的模式。
论文下载链接:
转载请注明:http://www.0431gb208.com/sjszlff/2625.html