今天,百度ERNIE再升级,发布持续学习语义理解框架ERNIE2.0,同时借助飞桨高效分布式训练优势发布了基于此框架的ERNIE2.0预训练模型。该模型在共计16个中英文任务上超越了BERT和XLNet,取得了SOTA效果。
近两年,以BERT、XLNet为代表的无监督预训练技术在多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
百度发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT通过掩码语言模型和下一句预测任务进行预训练。XLNet构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。那么如果持续地学习各类任务,模型的效果能否进一步提升?这就是ERNIE2.0希望探索的。
ERNIE2.0新一代升级
之前机器之心就曾介绍过百度开源的ERNIE1.0,今天百度也开源了ERNIE2.0的Fine-tuning代码和英文预训练模型。那么相比1.0,ERNIE2.0的升级包括哪些方面呢?
githubERNIE2.0开源
转载请注明:http://www.0431gb208.com/sjslczl/1145.html