毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

没想到NLP自然语言处理居然有这么

来源:语言识别 时间:2022/8/13

没想到!NLP(自然语言处理)居然有这么多应用场景?

机器翻译、舆论分析、智能问答……NLP的应用场景你知道多少?

如果你听说过人工智能,那么对于自然语言处理技术一定也不陌生,自然语言处理技术属于人工智能的一个子领域,它对计算机和人类的交互方式产生了很重要的影响。为了更方便大家理解,在介绍什么是NLP之前,首先我们先来了解一下语言的分类。

语言的分类

语言,人类区别于其它动物的根本标志之一。没有语言,人类的思维体现、沟通交流就会像无源之水、无本之木一样,可以说在人类社会中,语言扮演了极其重要的角色。

根据形成条件和使用目的不同,人类所使用的语言可以大致分为自然语言、半形式化语言和形式化语言三类。

自然语言通常是指自然进化而成、随文化而演化的语言,比如汉语、英语、日语等就是自然语言的例子,是人与人之间交流和思考表达的主要工具。

半形式化语言虽然与自然语言有许多共同之处,但都会自然语言的基础上附加一些特定的符号,会比自然语言更具形式化,通常具有无穷性、统一性、可操作性的特点。数学语言就是一种很典型的半形式化语言。

形式化语言是用精确的数学或机器可处理的公式定义的语言,按一定规律构成的句子或符号串的有限或无限的集合。例如机器语言就是由“0”和“1”组成的二进制数字串,不同个数、顺序的“0”和“1”可以组成一条条不同的指令,计算机无需进行翻译即可直接识别。同自然语言一样,形式化语言一般也有语法和语义两个方面,通常用于数学、逻辑和计算机科学中。

什么是NLP(NaturalLanguageProcessing,自然语言处理)?

在人工智能出现之前,机器能够自动处理少量结构化的数据(比如Excel里的数据),随着网络的普及,人类进入了信息爆炸的时代,机器需要处理的数据越来越多,而网络中大量存在的文本、图片、视频往往都属于非结构化数据,在这之中,文本的数量又是最多的,且其中绝大部分都属于上文提到的自然语言,虽然信息量大,但由于计算机无法理解,这时为了能够分析和利用这些文本信息,就需要用到NLP技术。

NLP(NaturalLanguageProcessing,自然语言处理)就相当于存在于机器语言和人类语言之间的翻译,通过搭建沟通的桥梁,借以实现人机交流的目的。

*图片来源于网络

即NLP是计算机科学领域及人工智能领域的一个重要研究方向,其目的是让计算机能够处理、理解以及运用人类语言,以实现人和计算机之间的有效通讯。

NLP的基本分类

自AlphaGo先后战胜李世石、柯洁后,逐渐掀起了人工智能的热潮,深度学习、人工神经网络等概念逐渐进入了大众视野,NLP作为其中一份子,通过先前研究成果的不断积累,已逐渐发展成为一门独立的学科。

从自然语言的角度出发,NLP可以分为自然语言处理和自然语言生成两大部分,即理解和生成文本。

自然语言处理和自然语言生成作为综合性的系统学科,又各自分别包含了很多细分学科。

自然语言处理是对语言、语境及其形式进行研究,研究范围包括音系学、词态学、句法学、语义学和语用学等。在对自然语言理解过程进行实际操作时,往往要克服语言的多样性、歧义性、鲁棒性、知识依赖、需要联系上下文等难点。

自然语言生成则是通过文本规划→语句规划→实现的思路来从已获取的结构化数据中以读取的方式自动生成文本。即通过规划对待生成文本的内容、结构进行规划确定,随后根据已获取或学习的句子模型进行整合,参考待生成目标语言的语法表达进行优化处理,最终完成生成输出任务。

图:NLP的基本分类,来源于网络

NLP的研究应用领域

信息提取:从指定文本范围中提取出重要信息,例如时间、地点、人物、事件等,可以帮人们节省大量时间成本,且效率更高。比如文摘生成利用计算机自动从原始文献中摘取文字,成果能够完整准确反映出文献的中心内容。

文本生成:根据限定条件或输入内容的不同,进行数据到文本或文本到文本的生成。

智能问答:对一个自然语言表达的问题进行某种程度的分析(例如实体链接、关系式、形成逻辑表达式等),分析完毕后在知识库中查找可能的候选答案,通过排序机智找出最佳的答案进行回复。比如电商行业中广泛应用的自动回复客服,通过回复许多基本而重复的问题,从而过滤掉大量重复问题,使得人工客服能够更好地服务客户。

机器翻译:通过把输入的源语言文本通过自动翻译获得另一种语言的文本,是自然语言处理中最为人所熟知的场景,比如百度翻译、Google翻译等。

文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识通过可视化、交互式界面进行表达。

舆论分析:通过收集和处理海量信息,对网络舆情进行自动化的分析,帮助分析哪些话题是目前的热点,同时对热点的传播路径及发展趋势进行分析判断,以实现及时应对网络舆情。

知识图谱:又称科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。以可视化技术为载体来描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

图:知识图谱示例,来源于网络

除此之外,NLP还可以用来做情感分析、语音识别和生成、信息过滤、信息检索等。

NLP的目标是弥补人类交流和计算机理解之间的差距,最终实现计算机在理解自然语言上像人类一样智能。未来,NLP的发展将会使人工智能可以逐渐面对更加复杂的情况、解决更多的问题。

企通查-动态大数据资源中心基于互联网+大数据+人工智能技术构建,通过分布式数据采集集群、数据特征提取、机器学习和深度学习算法模型、NLP文本分析等技术实现了数据的实时更新、高度关联、动态下载、主动推送,提供了全面、权威、及时、准确的数据资源,涵盖了宏观、中观、微观层面的全维度数据体系。大数据资源中心包含上百个维度、上千条二级类目及上千亿数据,数据类型包括结构化数据、网页数据、文本数据、图像数据等,数据存储总量超过T,为企业采购风控、销售客户评估、Al精准获客、精准招商、投融资、高校科研机构、政府事业单位提供了全方位的数据支持和数据应用解决方案。

如您对我们感兴趣或有合作意向,欢迎应用商店、

转载请注明:http://www.0431gb208.com/sjszyzl/1231.html