几十年来的自然语言处理研究几乎都是以文本为处理对象,而文本只是语义表达的一种方式,也是不完备的。很多自然语言的语义理解需要结合语音和图像等其他模态的信息,例如英语句子中“bank”可能需要借助图像是“银行”还是“河岸”去进行理解。基于多模态的自然语言处理旨在以自然语言文本为核心,将与之相关的语音和视觉模态的信息作为辅助知识进行建模,帮助语义的消岐和理解,从而实现性能更好的自然语言处理模型。
基于多模态信息的自然语言处理需要解决两大难题。首先,需要明确哪些自然语言处理任务需要多模态信息的帮助。其次,文本、语音和视觉模态的信息如何进行融合。特别地,还需要明确同源多模态信息和异源多模态信息是否应该具有相同的语义融合范式。由于人类是在多模态的环境下进行语言理解的,因此,基于多模态信息的自然语言处理方法必将是未来该领域研究的一个重要方向。
交互式自主学习的类脑自然语言处理
目前绝大部分自然语言处理方法几乎都是全局的和静态的,无法实时(在线)从错误和用户反馈中学习和优化过程,从而模拟人类交互学习和终身学习的智能行为。交互式自然语言处理旨在从与用户的交互过程中收集、建模和利用反馈信息,不断迭代和优化自然语言处理模型。在线方法能够被动或主动地发现错误,并根据错误实现在线学习和动态更新机制,最终建立一套自主学习框架。
基于神经网络的深度学习方法在近年来备受推崇,它在某种意义上的确模拟了人脑的认知功能。但是,这种方法只是对神经元结构和信号传递方式给出的形式化数学描述,并非基于人脑的工作机理建立起来的数学模型,它同样难以摆脱对大规模训练样本的依赖性。类脑语言信息处理旨在通过研究大脑的语言认知机理,分析认知机理与文本计算方法之间的关联,最终设计语言认知启发的自然语言处理模型。
目前人们只是在宏观上大致了解了脑区的划分及其在语言理解过程中所起的不同作用,但在介观和微观层面,语言理解的生物过程与神经元信号传递的关系,以及信号与语义、概念和物理世界之间的对应与联系等,都是未知的奥秘。如何打通宏观、介观和微观层面的联系并给出清晰的解释,将是未来急需解决的问题。从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理,借鉴或模拟人脑的工作机理,建立形式化的数学模型才是最终解决自然语言理解问题的根本出路。此外,人脑的语言理解过程遵循自主学习和进化机制,而目前语言信息处理模型仍然采用一次学习终身使用的机制。因此,如何借鉴人脑的语言认知与理解机理,设计具备自主学习和进化的自然语言理解模型,是通向类人智能语言处理的必经之路。
复杂场景下的语音分离与识别
在真实场景中,麦克风接收到的语音信号可能同时包含多个说话人的声音以及噪声、混响和回声等各种干扰,人类的听觉系统可以很容易地选择想要
转载请注明:http://www.0431gb208.com/sjszjzl/3216.html