新技术,老问题NLP领域中没有被听到的

来源：语言识别时间：2022/11/9

作者

BenBatorsky

编译｜钱磊、Ailleurs

编辑

陈彩娴

受到技术进步和开源数据集的推动，过去十年中人工智能经历了一次复兴，其进步之处主要集中在计算机视觉和自然语言处理(NLP)等领域。ImageNet在年制作了一个包含2万张内容标签的图片的公开语料库。谷歌于年发布了万亿词语料库(TrillionWordCorpus)，并从大量的公共网页中获得了n-gram频率。NLP的进步使得机器翻译质量大幅提高，数字助理的应用也迅速扩大，诸如“人工智能是新的电力”和“人工智能将取代医生”之类的言论也越来越多。

像AllenInstitute、HuggingFace和Explosion等组织也发布了开放源代码库和在大型语言语料库上预先训练的模型，这使得NLP领域飞速进展。最近，NLP技术通过发布公共注释研究数据集和创建公共响应资源促进了对COVID-19的研究。

然而，其实人工智能领域早已形成。艾伦·图灵（AlanTuring）在年就提出了“能思考的机器”的想法，这反映在人们当时对算法能力的研究上，当时人们希望研究出能够解决一些过于复杂而无法自动化的问题（例如翻译）的算法。在接下来的十年里，投资人看好AI研究并投入了大量资金，使得翻译、物体识别和分类等研究获得了很大进步。到了年，先进的机械词典已经能够进行基于词汇和短语的合理翻译。在一定条件下，计算机可以识别并解析莫尔斯电码。然而，到了20世纪60年代末，这些研究明显受到限制，实际用途有限。数学家詹姆斯·莱特希尔（JamesLighthill）在年发表的一篇论文中指出，在将自己研究的系统应用于现实世界中的问题时，人工智能研究人员无法处理各种因素的“组合爆炸”。社会上批评声不断，投入资金日益枯竭，人工智能进入了第一个“冬天”，开发基本上停滞不前。

图注：AI的发展时间线

在过去的几十年里，人们对人工智能的兴趣又复苏了，技术也突飞猛进。NLP最近的研究热点主要与基于Transformer的架构有关。然而实际应用的问题仍然值得提出，因为人们对于“这些模型真正在学习什么”感到担忧。年的一项研究使用BERT来解决论证理解（argument

转载请注明：http://www.0431gb208.com/sjszlff/2317.html

上一篇文章：十年一剑尽显锋芒,讯飞翻译机40让跨语

下一篇文章：行业分享文本数据标注的整体流程类型与应