毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

人工智能自然语言处理概述

来源:语言识别 时间:2022/8/15

自然语言处理(NaturalLanguageProcessing,NLP)属于人工智能的一个子领域,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。

概括而言,人工智能包括运算智能、感知智能、认知智能和创造智能。其中,运算智能是记忆和计算的能力,这一点计算机已经远超过人类。感知智能是电脑感知环境的能力,包括听觉、视觉和触觉等。

近年来,随着深度学习的成功应用,语音识别和图像识别获得了很大的进步。在某些测试集合下,甚至达到或者超过了人类水平,并且在很多场景下已经具备实用化能力。认知智能包括语言理解、知识和推理,其中,语言理解包括词汇、句法、语义层面的理解,也包括篇章级别和上下文的理解;知识是人们对客观事物认识的体现以及运用知识解决问题的能力;推理则是根据语言理解和知识,在已知的条件下根据一定规则或者规律推演出某种可能结果的思维过程。创造智能体现了对未见过、未发生的事物,运用经验,通过想象力设计、实验、验证并予以实现的智力过程。

目前随着感知智能的大幅度进步,人们的焦点逐渐转向了认知智能。比尔盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。自然语言理解处在认知智能最核心的地位,它的进步会引导知识图谱的进步,会引导用户理解能力的增强,也会进一步推动整个推理能力。自然语言处理的技术会推动人工智能整体的进展,从而使得人工智能技术可以落地实用化。

自然语言处理通过对词、句子、篇章进行分析,对内容里面的人物、时间、地点等进行理解,并在此基础上支持一系列核心技术(如跨语言的翻译、问答系统、阅读理解、知识图谱等)。基于这些技术,又可以把它应用到其他领域,如搜索引擎、客服、金融、新闻等。总之,就是通过对语言的理解实现人与电脑的直接交流,从而实现人跟人更加有效的交流。自然语言技术不是一个独立的技术,受云计算、大数据、机器学习、知识图谱的等各个方面的支撑,如图1所示。

图1自然语言处理框架

这里通过一个例子介绍自然语言处理中四个最基本的任务:分词、词性标注、依存句法分析和命名实体识别。在图2给定中文句子输入“我爱自然语言处理”:

①分词模块负责将输入汉字序列切分成单词序列,在该例子中对应的输出是“我/爱/自然语言处理”。该模块是自然语言处理里中最底层和最基础的任务,其输出直接影响后续的自然语言处理模块。

②词性标注模块负责为分词结果中的每个单词标注一个词性,如名词、动词和形容词等。在该例子中对应的输出是“PN/VV/NR”。这里,PN表示第一个单词“我”,对应的词性是代词;VV表示第二个单词“爱”,对应的词性是动词;NR表示第三个单词“自然语言处理”,对应的词性是专有名词。

③依存句法分析负责预测句子中单词与单词间的依存关系,并用树状结构来表示整句的句法结构。在这里,root表示单词“爱”是整个句子对应依存句法树的根节点,依存关系nsubj表示单词“我”是单词“爱”对应的主语,依存关系dobj表示单词“自然语言处理”是单词“爱”对应的宾语。

④命名实体识别负责从文本中识别出具有特定意义的实体,如人名、地名、机构名、专有名词等。在该例子中对应的输出是“O/O/B”。其中,字母O表示前两个单词“我”和“爱”并不代表任何命名实体,字母B表示第三个单词“自然语言处理”是一个命名实体。

图2自然语言处理示例

自年开始,深度学习开始在语音和图像发挥威力,NLP研究者把目光转向深度学习。先是把深度学习用于特征计算或者建立一个新的特征,然后在原有的统计学习框架下体验效果。比如,搜索引擎加入了深度学习的检索词和文档的相似度计算,以提升搜索的相关度。自年以来,人们尝试直接通过深度学习建模,进行端对端的训练。目前已在机器翻译、问答、阅读理解等领域取得了进展,出现了深度学习的热潮。

深度学习技术根本地改变了自然语言处理技术,使之进入崭新的发展阶段,主要体现在以下几个方面:

①神经网络的端对端训练使自然语言处理技术不需要人工进行特征抽取,只要准备好足够的标注数据(如机器翻译的双语对照语料),利用神经网络就可以得到一个现阶段最好的模型;

②词嵌入(wordembedding)的思想使得词汇、短语、句子乃至篇章的表达可以在大规模语料上进行训练,得到一个在多维语义空间上的表达,使得词汇之间、短语之间、句子之间乃至篇章之间的语义距离可以计算;

③基于神经网络训练的语言模型可以更加精准地预测下一个词或一个句子的出现概率;

④循环神经网络(RNN、LSTM、GRU)可以对一个不定长的句子进行编码,描述句子的信息;

⑤编码—解码(encoder-decoder)技术可以实现一个句子到另外一个句子的变换,这个技术是神经机器翻译、对话生成、问答、转述的核心技术;

⑥强化学习技术使得自然语言系统可以通过用户或者环境的反馈调整神经网络各级的参数,从而改进系统性能。

语言智能是人工智能皇冠上的明珠,如果语言智能实现突破,与其同属认知智能的知识和推理就会得到长足的发展,推动整个人工智能体系发展,使更多的场景可以落地。而自然语言的进展主要包括四个层面:神经机器翻译、智能人机交互、阅读理解及机器创作。

1.神经机器翻译

神经机器翻译是模拟人脑的翻译过程。人在翻译的时候,首先是理解这句话,然后在脑海里形成对这句话的语义表示,最后再把这个语义表示转化为另一种语言。神经机器翻译有两个模块:一个是编码模块,把输入的源语言句子变成一个中间的语义表示,用一系列的机器内部状态来代表;另一个模块是解码模块,根据语义分析的结果逐词生成目标语言。神经机器翻译在这几年发展得非常迅速,年的研究热度更是居高不下,现在神经机器翻译已经取代统计机器翻译,成为机器翻译的主流技术。

统计数据表明,在一些传统的统计机器翻译难以完成的任务上,神经机器翻译的性能远远超过了统计机器翻译,而且跟人的标准答案非常接近甚至说是水平相仿。研究者围绕神经机器翻译做了很多工作,比如提升训练的效率、提升编码和解码的能力。还有一个重要的研究问题就是数据问题,神经机器翻译依赖于双语对照的大规模数据集来进行端到端的训练神经网络参数,这涉及很多语言对和很多的垂直领域。

而在某些领域并没有那么多的数据,只有少量的双语数据和大量的单语数据,所以如何进行半监督或者无监督训练来提升神经机器翻译的性能成为本领域的研究焦点。

2.智能人机交互

智能人机交互是指利用自然语言实现人与机器的自然交流。其中的一个重要概念是“对话即平台”(conversationasaplatform,CaaP)。年,微软首席执行官萨提亚提出了CaaP这个概念,他认为继有图形界面的下一代就是对话,对话会对整个人工智能、计算机设备带来一场新的革命。

这一概念的提出主要有以下两方面原因:一方面源于大家都已经习惯用社交手段(如

转载请注明:http://www.0431gb208.com/sjsbszl/1236.html