毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

NLP发展如何机器之心SOTA模型库知

来源:语言识别 时间:2023/1/8

机器之心发布

机器之心编辑部

机器之心《-全球AI技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。

年伊始,机器之心发布《-全球AI技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性AI技术领域。

此外,该报告还邀请了近位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于-年间的开源论文与专利语料,结合机器之心自有的新闻舆论以及模型最佳表现(SOTA)等相关数据库进行了探索性数据分析,并形成了用以帮助技术趋势判定的量化指标SyncedIndicator(SI)。

为了方便从业者把握AI技术趋势,机器之心将持续刊载该该报告的节选内容,以下篇幅选自《-全球AI技术趋势发展报告》第三章「人类语言技术」。

「3-1」人类语言技术

3-1-6最佳模型(SOTA)与机器之心知识库(KB)收录情况

从机器之心SOTA模型收录的数量上来看,问答系统相关的模型评估结果条目收录数量最多,占据了40%以上的空间,机器翻译次之。语音识别语文本摘要、情感分析这些NLP领域常见技术任务在SOTA模型收录的数量上占比类似。

图3-1-6-1NLP热门技术任务相关SOTA数据情况

从具体的表现上来说,在个别主流语言(如中、英、法等)特定日常语境(如新闻资讯)下,多项人类语言技术下游任务均达到过了「赶超人类」的水平表现:如微软在年研发的对偶学习机器翻译,尤其是在大规模与训练语言模型出现之后,BERT系列的模型基本对各类NLPBenchmark实现了「屠榜」。根据英文通用自然语言理解评测基准GLUEBenchmark的最新数据(截至年11月),排行榜名列前茅的模型几乎全是微调后的类BERT系大规模预训练语言模型,如排名前三的「MacALBERT+DKM(哈工大讯飞联合实验室)」、「StructBERT+TAPT(阿里达摩院)」以及「ALBERT+DAAF+NAS(中国平安)」,而这些模型在综合总分上均大大领先排行榜第14位的人类指标,这也促使了GLUE团队在年提出了更高的自然语言理解评估标准SuperGLUE。

多家企业的大规模预训练语言模型在语言理解方面已经超越了人类水平,其中排行榜头部诸多团队均为中国企业(1-4名分别为哈工大讯飞联合实验室、阿里达摩院、中国平安、百度,第9名为华为诺亚方舟实验室),除此之外则是国际知名互联网科技企业Google(第5)、微软(第6)、以及Facebook(第12)等,而它们在综合总分上均超越了目前排行第14的人类指标。这也是促使GLUE相关团队提出更高的原因之一。

图3-1-6-2GLUEBenchmark数据情况(年11月)

*GLUE官方也于SUPERGLUE的相关论文上展示了不同模型相对于人类水平在GLUEBenchmark上的表现进展,Y轴是相对于人类水平的表现分数(数据截止于年相应论文发表时)。

图3-1-6-3GLUEBenchmark收录模型表现情况与人类水平对比

然而,针对具体数据集的「超人类」表现大部分时候并不代表着对应的技术已经成熟到可以替代人类应用。以机器之心SOTA数据收录最多的问答系统为例,虽然在SQUAD上的前20名均已超过其设定的人类表现基准,但涉及到具体应用来看,目前最成熟的应用还是局限于执行预设好的特定任务场景(如IoT的控制,有标准答案的知识问答等)。这通常是基于单一领域场景实现的,一旦切换使用的领域场景则会表现不佳。与此同时,对于需要结合上下文理解的多轮对话情景也是目前该领域尚在研究的热点方向之一。

即便是专利覆盖率最广的语音识别技术,特定应用场景下的识别准确率其实仍然无法达到预期,更不用说不区分场景的通用型人工智能情况了。小米首席语音科学家、语音识别开源工具Kaldi之父Daniel认为:「现在业内许多人士认为,语音识别系统的准确度已经很高了,但实际上这种高精准度仅仅针对的是某些特定的语音类型。现阶段,让机器来识别人们日常交流还是比较困难的,尤其是当周围环境掺杂着噪声、音乐且多人同时发声时。也就是说,我们还需要对现有的语音识别技术进行认真打磨。」

基于机器之心知识库KB数据显示,人类语言技术方面收录节点和关系数量最多的技术是问答系统,占约30%,语音识别与机器翻译次之,各占约20%。技术方法层面,BERT是KB中关联节点最多、收录最前面的语言技术,seq2seq排名第二。

图3-1-6-4NLP热门技术任务KB收录情况

而综合归一化具体节点在不同分类下的数据分布之后得到的数据来看(下图),预训练模型与语音识别的相关节点占比最高,情感分析次之,命名体识别、机器翻译、问答系统等各占比约10%左右,整体比较均衡。问答系统的高分布主要来源于其技术分类下词条数量绝对值较高。

图3-1-6-5NLP热门技术任务KB收录情况(子类归一化后)

转载请注明:http://www.0431gb208.com/sjszlff/2926.html