科技思考:人工智能在自然语言处理中,是否存在语义障碍问题?——伴随着信息化时代的发展,人工智能技术也取得了相应地的成果。但是作为人工智能核心技术的自然语言处理研究却举步维艰,其原因正是语义问题的难以解决。因此梳理人工智能语义问题的技术困境必须要从自然语言处理面对的语义障碍入手,主要有以下几个方面。
首先是语言处理的层次化结构意味着必须实现语言分析从语形到语义阶段的转变。人类对语言的分析和理解是一个层次化的过程,这是语言学和计算机科学对于自然语言处理研究的共识。
自然语言通过人类大脑处理的过程可以分解为两个部分,即语言输入大脑,大脑对自然语言进行分析和解构;在这之后,大脑经过处理,重构语言后输出新的结果。通过大脑对自然语言的分析和处理可以给出这样的判断,语言可以被分解为词语一级的程度被重组和解构。
基于此判断,从还原论的观点出发,就可以认为自然语言内部可以被划分为多层次的结构,计算机对自然语言的处理也要像人脑一样遵循这种层次结构,来进行语言的分析和处理。这就需要计算机尽可能地模拟大脑在处理语言的时遵循的分析逻辑与语法规则,从而实现计算机对自然语言的完美处理。
这样一来,自然语言处理就可以按照人脑对语言的处理大致分为两个模块,即语言的输入,需要实现计算机对自然语言的识别与理解能力;以及语言的输出,需要计算机具备自然语言的句法构造以及表达能力。
在此过程中,自然语言处理的识别与句法构造能力需要从词汇,句子这一层面来处理实现,这也就是语形方向的研究思路,而对语言的理解和表达能力的实现则需要通过语义分析或者说语用识别的方向来实现。在此基础上,自然语言的处理的研究就面对着必须要从语形分析的方向跨越到语义分析的层面。
现阶段语形分析的技术和研究已经比较成熟,但是对于语义分析的方向依然进展缓慢,这也就造成了自然语言处理必须面对的语义障碍。第二,不管是基于语法规则的理性主义还是统计方法的经验主义暂时都还无法完美实现语义分析。
自然语言处理的早期研究主要是采用人机对话的模拟来实现机器翻译。乔姆斯基的转换生成语法出现后,自然语言处理实现广泛发展和应用,在乔姆斯基的基础上,通过语形分析和识别来实现自然语言的处理。随后统计方法也加入进来。
现阶段的语义分析大都是从统计方法出发,分析的程度和准确度很大程度上依赖数据体量的支撑,这种方法没办法实现语义分析能力的突破和进展,更无法解决语义分析理论的构建问题。语义分析的突破口应该在于构建词语级别的语义词库,并且尽可能地实现大脑对于语义的层次化分析结构,否则就无法突破语义障碍在理论与实践中面对的瓶颈。随着人工智能领域的进展,自然语言处理也确实朝着语义词库的方向努力。
基于统计方法的局限性,自然语言处理打算换一种思路。摆脱对数据的依赖,选择构建语义网络,从语境分析和识别的思路来进行突破。然而此种思路依然要面对句法规则的限制,无法满足对自然语言处理的多样化需求。
由此看来,语义障碍的核心问题在于基于句法规则的语形分析和复杂语义分析之间并不是一对多的逻辑关系,而是存在着复杂的多对多的条件关系,这就造成了语言的模糊性问题。因此,构建词汇一级的语义词库就成了迫在眉睫的任务。
上个世纪90年代以来,自然语言处理研究确实进行了诸多语义词库的搭建尝试,然而仍然无法摆脱统计方法的阴影,依然受限于数据基础的经验主义。
有专家认为“从理论方法角度看,基于规则的“理性主义”方法,虽然在一定程度上制约了建立在“经验主义”基础之上的语义知识库的发展,但是日益出现在“经验主义”方法中的不足,也需要依靠“理性主义”的方法来弥补,两类方法的融合也正是当前自然语言处理发展的趋势。”
第三,基于统计经验基础的语义知识库主观性太强,不足以支撑语义分析的实现。经验主义的思路永远存在着理论的漏洞,这就会造成自然语言处理结果的不确定性。
“构成框架网络语义知识库的基本语义框架,是从分析者的直觉判断开始的,一个框架的确立需要经过一些认识上的反复过程。由于分析者与分析者之间、分析者与使用者之间的知识背景不同,他们的思维方式也不可能完全相同,因而对问题的理解和认识也会有所不同。
由此造成框架网络在一定程度上必然存在着主观性和不确定性,这是构建经验主义语义知识库所不能避免的。”就拿同义词为例。对于同义标准的界定和划分是人为制定并涉及到计算机系统之中的,这就使得同义词这一层面的语言处理带有了人类的主观性。
由此可以看出,经验主义的路子走不通的关键在于语义词库的搭建是否真的适合模拟大脑的层次分析结构。并不是所有的词汇和事物都可以被层级分类划分。除了同义词,还存在着具备多重层级属性和类别区分的事物与词汇,只通过简单的层次分析结构无法实现该种事物的语义表达。
在此基础上,就需要我们有着这样的认识:即语义词库的能力暂时无法实现完美的语义分析,对于系统的能力评价应该基于其实践中的效果与能力。最后是语义网的动态语义分析现阶段难以实现。
自然语言处理的语义障碍的跨越,不能仅仅从片面静止的观点来探讨解决方案,毕竟语言并不只是简单的文字表达,还涉及到思想的交流与沟通,是一个动态的过程。基于此情境,伯纳斯·李提出了“语义网”的概念。
语义网就是一种基于互联网技术的语义互联网,可以满足语言处理的动态交流以及灵活需求。这就要求计算机的智能算法和程序在互联网中开放式运行和应用,从而实现计算机与人的无障碍交流,也可以使计算机对语言的处理不断地学习和完善。
这就对计算机的自然语言处理系统提出了新要求,因为网络中的即时交流是动态发展,不断变化的,需要计算机及时响应并给出反馈,这样交流才能够顺畅的进行。然而这就需要更强大的能够进行篇章级别的语义分析的自然语言处理技术,这在现阶段还是无法解决的困难,有待人工智能的技术进展实现新的突破。
因此,人工智能视域下的语义问题同样是阻碍人工智能突破发展的重要原因与核心动力,为此技术领域也做了诸多语义探索尝试解决问题。由于人工智能本身的出现就是多学科共同努力的结果,其学术背景的多样与复杂,也导致人工智能领域内的问题经常引起多学科的交叉探讨,语义问题同样不可避免。
人工智能领域下语义探索,从自然语言处理的研究开始,不仅产生了机器翻译问题,也引起了哲学争论。时至今日,人工智能对于语义问题的解决进行了诸多探索,相关研究愈发丰富,不仅呈现出跨学科、多领域等特点,也成为当下各领域
转载请注明:http://www.0431gb208.com/sjszyzl/1270.html