语言生成不够「生动」?PercyLiang等来自斯坦福大学的研究者提出了自然语言评估新标准。困惑度是评估生成语言是否「自然」的最常见标准,它的值越小,则表示模型生成的句子越接近人类语言。但是这种基于统计的方法并不能很好地评估生成质量,因此本文提出一种新的评估方式HUSE,它为自然语言生成提供了结合人类和统计评估的新架构。怎样度量生成的语言生成文本是很多NLP任务的核心,但如何恰当地评估生成语言的「自然性」是很有难度的。好的评估指标应该不仅能捕捉到生成结果的质量,还能考虑到生成结果的多样性,这对对话或故事生成这类需要创造性的开放性任务尤为关键。人类评估通常被视为金科玉律,既能捕捉质量也不会忽略多样性。但是,统计评估(即在参考测试集上的困惑度)也能捕捉多样性,因为它确保模型为新句子分配合理的概率,但是困惑度(Perplexity)无法提供充分的质量评估。目前困惑度在语言模型等领域中是应用最广泛的度量方法,它刻画的是语言模型估计一句话出现的概率。困惑度有一个非常直观的理解,即我们可以认为它是平均分支系数。也就是说语言模型预测下一个词时平均可选的数量,即模型对下一个词的「困惑程度」。现有的将统计评估和人类评估结合起来的方法是点对点的,这会导致有误导性的性能评估。常见的方法是通过概率模型的困惑度来评估多样性、通过对束搜索输出进行人类评估来衡量质量。这就会产生一种错觉:某个模型质量高且具备多样性,而现实则是这个模型要么只具备多样性,要么只能输出高质量的结果。斯坦福的解决方案在这篇论文中,斯坦福的研究者采用对抗的思想,用判别器判断句子到底是来自参考分布还是模型分布,并将最优判别器误差率的2倍作为理想的评估指标。如果模型生成的句子质量较低,则最优判别器能够对模型生成的句子进行准确地分类。如果参考分布包含该模型无法生成的句子(低多样性),则最优判别器也能够对来自参考分布的句子进行准确地分类。但是,最优判别器并不可得。「人类」判别器无法高效捕捉多样性,训练得到的判别器(比如基于GAN或人类判断训练得到的判别器)也无法用于严谨的评估。该研究的关键结果,即最优分类器依赖于两个数值:句子是模型生成的概率;句子才样子参考分布的概率。前者可以直接从模型中计算得到,后者可以通过人类判断的分数近似得到,从而得到图1所示的二维空间。图1:HUSE(HumanUnifiedwithStatisticalEvaluation)是分类误差的两倍,即基于人类判断分数和模型预测概率来区分文本是来自参考数据还是模型生成。HUSE能识别出质量和多样性存在问题的样本。CodaLab与论文复现该研究在CodaLab平台上提供了所有代码、数据和实验结果。值得注意的是,CodaLab也是PercyLiang和斯坦福等研究者构建的一个开放平台,它希望能为可复现研究提供管理实验、数据等方法。Codalab
转载请注明:http://www.0431gb208.com/sjslczl/8057.html