EMNLPRegularPapers
控制人类对基本用户特征的感知
ControllingHumanPerceptionofBasicUserTraits
宾夕法尼亚大学
UniversityofPennsylvania
我们的大部分在线通信都是以文本为介质,近来,在一些自动代理应用中更加常见。与人类间的互动不同,这些代理目前并没有将他们的语言交流根据与他们交流人的类型进行调整。在这个试验性的研究中,我们测量了人类对基本用户特征信息的感知程度——性别和年龄——通过文字来控制。利用性别和年龄的自动预测模型,我们估计用户发布的哪些推文有可能错误地描述他的特征。我们进行了多个受控的众包实验,结果显示我们可以将人类的预测准确率降低到几乎是随机的——准确率降低了20%以上。我们的实验表明,对于诸如文本生成、文本摘要或机器翻译这样的应用程序进行特征定制与感知是可行的。
1引言
自然语言处理的进步正导致文本生成方法的大规模部署。然而,为了使这些应用程序更讨人喜欢、更有效、更便于使用,这些方法应该考虑一种方法,使它们能够适应与之交互的人或人的类型(Bates,;LoyallandBates,)。例如,一个学生可以从一个和自己表现类似特征的辅导代理中学得更好(BaylorandKim,)。
在本研究中,我们探讨了利用自动化方法控制人类特征感知的可行性。Flekova等();卡朋特等人()是第一个利用社交媒体上的推特来研究用户特征与他们感知之间差异的人。他们的重点是量化感知和现实之间的差异,分析导致错误认知的文本特征。这项研究再深一步,使用相同的实验设计和众包,目的是利用自动的方法,通过推文来控制人类对基本用户特征的感知——这里是年龄和性别。为了达到这个目的,我们使用性别和年龄预测算法来选择具有已知特征的用户发布的推文,目的是提高或降低人类在猜测他们的特征时的准确性。
在文献(ReddyandKnight,)中,试图通过自动分类器识别出的模糊性别。这个问题是相关的,但与我们研究的不同,因为我们研究的人类感知是不同的(Flekovaetal.,)且更复杂。ReddyandKnight()研究了一系列的词汇替换以降低分类器预测准确性,尽管这些可能会影响词汇的一致性。在这个试验性研究中,我们围绕这个问题,使用已知由同一个人编写的推文,这种情况的缺点是有可能出现主题混淆。
我们的实验表明,对于性别而言,与随机选择的推文相比,我们可以将人类对文本的感知准确率降低20%以上,在这种情况下,准确率仅略高于偶然。更进一步,在预测男性的时候,这个准确率甚至更低。对于年龄感知,我们在改变感知方式的同时,无论是年轻还是年长,都表现出一致的结果,尽管年龄差异较小。
我们提出方法的研究领域应用包括会话代理或自动电子邮件生成。个性化是在机器翻译(Mirkinetal.)的背景下进行的,最近还在尝试性别(Rabinovichetal.,),尽管作者没有使用人类来评估性别感知。用户的自动文本个性化特征也可以超越基本的统计特征,到更突出的特征如社会地位(Preotiuc-Pietroetal.,a,b),政治意识形态(Preotiuc-Pietroetal.,a)或诸如个性(Schwartzetal.,;Guntukuetal.,a,b,,)、自恋(Preotiuc-Pietroetal.,)、信任或同情(Abdul-Mageedetal.,)等心理特征。
2数据集
我们通过两个Twitter数据集来研究两个用户特征,这些数据集包含有已知性别和年龄信息的用户。首先,对于性别,我们使用了个用户(个男性,个女性)的数据集(Burgeretal.,),它由(Volkovaetal.,)发布,通过将他们的Twitter账户与他们在相关博客上公开的自我声明的性别联系起来,将用户映射到他们的性别上。年龄数据集包括名用户,他们在一项调查中自我报告他们的年龄,并公开了他们的Twitter数据,这些数据是在(Flekovaetal.,)中使用的数据的一部分,我们挑出了在年年龄在15-34岁之间的用户,分析中我们只使用这些用户年发布的推文。在这个间隔中,我们对每个年龄选择了10个用户,因为这些是我们的数据集中最频繁出现的年龄,大多数语言变化都发生在这个区间内,这些也是评分者最能准确预测的年龄范围(Nguyenetal.,)。
我们使用TwitterAPI从这些用户中下载最多3条推文。我们通过过滤那些没有被自动化方法检测到的英语(LuiandBaldwin,),删除了重复的推文(即:拥有相同的第6个标记)和删除这些不是由用户编写的转发推文。推文中包括的所有潜在的敏感或暴露的信息,如网址,用户名,
-名称,电话号码都被删除,然后用占位符替换,然后显示给标注者。除了公开可用的推文外,没有其他的元数据或信息出现在该任务中,因此评价者无法将这些推文映射到实际的用户身份。评分者也不知道他们在执行评分时所分配的条件(随机的、相反的、相同的、最年轻的或最老的)。我们所有的实验都得到了宾夕法尼亚大学的机构审查委员会(IRB)的批准。我们意识到,我们为这项研究设想的长期应用程序可能会对用户产生个人影响。因此,我们提出以下的标准,这些标准应该是未来研究控制人类感知的核心,我们鼓励它随着时间的推移而完成:
透明度:用于构建个性化模型的数据应该对任何用户都是透明的。这将允许观察数据中可能存在的任何可能的偏差。
控制:与个性化系统交互的用户应该知道代理所使用的个性化类型(例如,性别,特定的年龄组),并且应该能够在需要的时候禁用它。
3实验设置
我们使用亚马逊的Turk机器人来创建众包任务,以预测推特的年龄和性别。每个HIT由一个用户创建的20条推文组成,并使用不同的方法选择。这些标注者被要求预测性别(M/F)或年龄(在13-90之间整数值),并从1(完全不可信)到5(非常可信)评价他们猜测的置信度。我们为每个作者和推文集收集了3条标注。
参与者每次评估将获得一笔小额报酬(0.04美元),他们可以按照自己的意愿重复这个任务,但不能对于同一作者和推文集(需要针对不同的作者和推文集)。他们还获得了最初的奖金(0.25美元)。在质量控制方面,参与者接受了简短的培训和资格质疑,他们的位置仅限于美国,他们在提交自己的猜测之前必须花至少10秒钟的时间。
为了估计哪些推文更有可能是由女性或年长用户编写的,我们使用了(Sapetal,)介绍的分类器。这是一个规范化的线性SVM,它可以从社会媒体文本中获得关于用户性别(91.9%的准确率)和年龄(r=.)的预测结果。我们将这个模型应用于所有的推文,并根据以下标准为每个用户选择20条推文。
随机:从用户的时间轴上随机选择推文;
相反:对性别来说,预测的推文更有可能是由不同性别的人写的;
相同:对于性别来说,预测的推文是由与作者相同性别的人写的;
最年轻的:对于年龄来说,用户的推文被认为是年龄最年轻的;
最老的:对于年龄来说,用户的推文被认为是年龄最大的;
根据自动预测选择的推文会以预测分数的顺序呈现,例如,具有最低预测率的最年轻的推文会被排在最靠前的位置。随机排序的推文实验也显示了相似的结果。
4结果
在这一节中,我们将分析我们的实验在多大程度上改变了特征感知、标注的错误和置信度。
4.1性别
表1展示了我们的性别实验在个人评价和多数投票情况下的总体准确度结果。在所有的实验设置中,评分者能够更好地猜出性别,而这三名评分者的多数投票结果比单独的投票结果高得多(平均为5.77%)。
表1在三个文本选择的条件下人类在性别预测方面的准确度
我们的选择程序对评价者的准确性有很大的影响。选择最可能由相反性别书写的推文——即使它们是由同一用户在现实中发布的——也会影响到准确性,降低20.93%,仅略高于随机猜测(55.75%)。对于大多数人的投票结果,下降了22.42%(成对T-test,t=8.06,p10-14)。另一方面,选择由我们的自动模型所确定的相同性别的用户发布的推文,将会提高个人的准确性,提高14.66%。多数投票预测的数量相对较少(11.5%-配对T-test,t=7.09,p10-11),我们认为准确度已经非常接近神人。
表2给出了三个实验中的混淆矩阵。有两种模式脱颖而出:在这三种实验中,女性更容易被准确地识别出来,而男性则更容易被女性混淆。这导致了评分者猜测更多的用户是女性,尽管我们的数据是平衡的。有趣的是,在“相反”的实验中,男性混淆为女性的往往比正确的猜测多,而女性的猜测则要准确得多,这使得他们的平均准确性高于随机。在“相同”的实验中,女性更容易猜出,准确度非常接近完美。这些结果表明,女性在Twitter上的语言使用更有特色,因此更难被男性混淆。另一方面,正如“相反”的实验所证明的那样,男性所写的文章可以被选择,使得他们被认为是女性写的。
表2将人类猜测(预测)与地面真相(真实)相比较的标准化混淆矩阵
表3根据实际情况(真实)的人类猜测(预测)的平均置信度
表4中提供了标注者之间一致性的统计。对于相同的设置,在用户级别上的成对协议非常高,对于随机和相反的设置来说,下降得非常显著。
表4标注者之间的一致性统计
表3中给出了三个实验评估的平均自我评估置信度。在所有的实验和案例中,自我评定的置信度几乎完美地反映了其准确性:在准确度更高的情况下,置信度会更高。当准确地猜测一个女性的时候,用户通常更可信,并且在不准确地猜测女性的时候是最不准确的。值得注意的是,在“相反”的实验中,错误地猜出男性的用户比正确识别的男性更加可信,而女性则不是这样。这进一步表明,女性在Twitter上使用的是更独特的语言,而男性则更容易被误解为女性。
4.2年龄
表5给出了我们的年龄实验的总体精度结果。我们只报告用户年龄的结果,这是平均三个猜测的结果。个人评分的结果非常相似,我们为了简洁而省略了它们。
表5三个实验设置中的年龄预测结果。预测的用户年龄是三个人评估的平均年龄。基线表示总是选择数据集中的平均年龄。
实验结果表明,我们的模型选择与人的认知相吻合:在较年轻的实验中,平均预测的年龄要低于随机实验,而随机实验的平均年龄要低于最老的实验中预测的年龄。此外,在更年轻的实验中,与预测平均年龄相比,更多的用户的年龄被低估了,而在更老的实验中,更多的用户的年龄被高估了。我们还注意到,在随机设置中,评分者倾向于低估年龄(53.5%的年轻和39.3%的年龄),平均值低于数据(23.3对24.5),这与之前的研究(Nguyenetal.,)相一致。
图1画出了这三个实验中,根据年龄对用户的平均预测。有趣的是,即使在较年轻的设置中,18岁以下的用户也会被预测为更老,而超过20岁的用户群则被低估了。值得注意的是,同样的近似线性模式在其他两项实验中基本适用,年龄的界限不同(随机的23,年龄最大的27)。
图1在三个实验中,平均预测的年龄与实际年龄相比较。黑色线条代表了理想的契合度,有色线代表了一个与数据的LOESS
这三个实验的精确度是非常相似的,无论是正确猜测或猜测与实际年龄相比差距在1,3,5年以内。通过检查图1,我们意识到用户组准确地预测了从一种方法到另一种方法的转换。这就说明,即使控制年龄的观念是可行的,这也是可能只有几年的时间。
表4展示了标注者之间的一致性统计。首先,对每个作者的三个猜测的平均标准偏差表明,最年轻的设置产生了最相似的猜测,而这些猜测往往位于较年轻的年龄范围内。与之相反,最年老的设置产生最大方差的猜测。
平均每个作者的三次猜测之间的平均相关性表明,两种受控设置比随机设置都导致了评分者之间的更高的一致。这表明,相对于随机的推文样本,用户更容易根据他们的极端语言使用(年龄最大或最年轻)来排序。
最后,在最年轻的实验中(=3.35),评分的平均自信最高,其次是较老的实验(=3.20),随机试验(=2.97)最低。此外,我们还检查了真实或预测的年龄和自我评定的自信之间是否有关系。在最年轻的实验中,真实年龄和预测年龄都与自我评价的置信度负相关(真实年龄:Pearsonr=-0.,p值10-8,预测年龄:Pearsonr=-0.,p值10-10),这表明,当遇到较年轻的用户时,评级者认为他们的猜测更容易。在随机实验中,只有当(Pearsonr=-0.,p值10-5)时,自我评价的置信度与预测的年龄之间存在着显著的相关性,而我们在最年老的实验中没有发现任何关系。这表明,至少对于较年轻的用户来说,使用语言是更容易区分的,这可能是由于特定的主题或兴趣造成的。
5定性分析
最后,我们在表6中展示了从这篇文章中选出的推文消息的最主要的特性,以及一个具有代表性的推文。靠前的特性是回归/分类权重乘以推文所显示特征的用户归一化平均频率计算得来的。在性别方面,我们使用相反设置来显示最具象征意义的女性在推特上被认为是男性的推文,反之亦然。特定性别的特征被用在不同的感知上(“衣服”,“妻子”,“女人”),指的是别人而不是自己(“自己”,“他”),或者代表风格(“of”)或局部(“发型”,“汉堡”)的区别。对于年龄,我们在最年轻设置中选择最具象征意义的年轻用户特征,以及在最年老设置中显示年龄较大的用户的象征性特征。在这种情况下,大多数的词汇都是风格上的(“字面上”,“所以”,“不过”,“兴奋”,“朋友们”,“OK”,“via”),这些特征暗示了年龄的增长,指的是过去(“多年”,“前”),或者一般特指年老者(“女儿”)。
表6在推文选择和代表性推文中最有效的特征
6结论
我们展示了第一个自动控制人类对书面文字认知的研究。我们把具备大量信息的性别和年龄知识作为基本的人类特征进行探索,来衡量在文本媒介交流中改变感知的程度的可行性。我们的研究结果表明,这在某种程度上是可能的,对男性来说尤其准确。在三个实验中,年龄实验证明了一致的结果,尽管只有在相对较小的年龄增量中才有可能改变。
在这一主题的第一个实验中,我们进行推文选择而不是生成,是因为这些方法通常生成的文本不是语义、语法正确或自然的。在未来的工作中,我们将尝试在保持主题不变的情况下自动修改或生成文本,因为我们当前的结果部分是由局部驱动的。更改可以通过风格转换来完成,比如标准化,或者按照建议(Preotiuc-Pietroetal.,,b)进行修改。
文本适应性对于只通过文本进行交互的会话代理尤其重要。作为人类,我们通过多个额外的渠道来自动完成这种适应:语音语调,频率,面部表情;而代理不能改变的。除了方法论之外,未来的工作还需要考虑到个性化的伦理知识。
论文下载链接:
转载请注明:http://www.0431gb208.com/sjszyzl/4017.html