雷锋网AI开发者按:近日,谷歌发布了包含7种语言释义对的全新数据集,即:PAWS与PAWS-X。BERT通过该数据集的训练,在释义对问题上的精度实现了约为3倍的提升;其它先进的模型也能够利用该数据集将精度提高到85-90%。谷歌希望这些数据集将有助于推动多语言模型的进一步发展,并发布了相关文章介绍了该数据集,雷锋网AI开发者将其整理编译如下。
背景环境
词序和句法结构对句子意义有很大影响,即使词序中的一点小改动也能完全改变句子的意思,例如下面的一组句子:
FlightsfromNewYorktoFlorida.(从纽约飞往佛罗里达州的航班)FlightstoFloridafromNewYork.(从纽约出发到佛罗里达州的航班)FlightsfromFloridatoNewYork.(从佛罗里达州飞往纽约的航班)尽管这三个词都有相同的词组;但是1和2具有相同的含义,我们将这样的一组句子对称为释义对(paraphrasepairs),而1和3有完全相反的含义,所以我们将其称为非释义对(non-paraphrasepairs)。识别一对句子是否为释义对的任务则被称为释义识别,这一任务对于许多实际应用中的自然语言理解(NLU)处理而言是非常重要的,例如:常见的问答任务等。
但令人惊讶的是,目前即使是最先进的模型,如:BERT,如果仅在现有的NLU数据集下进行训练,并不能正确地识别大部分非释义对(就像上面所列举的1与3)之间的差异。其中很大的原因是由于在现有NLU数据集中,缺少诸如此类的训练数据。因此,即使现有的机器学习模型能够很好地理解复杂的上下文短语,它们依旧很难拥有对该类任务的判断能力。
PAWS数据集与PaWS-X数据集
为了解决这一问题,我们发布了两个新的数据集,致力于帮助社区进行相关的研究。数据集包括:
支持英语的释义识别对抗性数据集PAWS(ParaphraseAdversariesfromWordScrambling,
转载请注明:http://www.0431gb208.com/sjslczl/1502.html