毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

北大教授吴玺宏从发声到语言,具身物理模型

来源:语言识别 时间:2022/10/5

作者

吴彤

编辑

青暮

让机器理解人类的语言是我们长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度?如何评价语言理解的智能水平?离强人工智能还有多远距离?未来的技术发展趋势如何?这些问题迫切值得研究与探讨。

中国计算机学会和中国中文信息学会联合创办了"语言与智能高峰论坛",每年举行一次,首届论坛于年在北京举行,已成功举办五届。

在今年8月28日的线上高峰论坛上,北京大学吴玺宏向大家分享了大规模训练语言模型的个人见解,随后具体阐释了基于发声物理模型的语音发声姿态的自监督学习。

吴玺宏教授的线上分享

吴玺宏教授现为北京大学教授、博士生导师,北京大学信息科学技术学院副院长、智能科学系主任、言语听觉研究中心主任。同时也担任南京脑科学与类脑智能创新中心的主任,研究猴脑介入式言语、猴子在交互过程中脑活动、非介入式的人脑介观的动态图谱以及和人类行为语言的关系。长期以来,吴老师致力于机器听觉计算理论、语音信息处理、自然语言理解以及智能机器人等领域的基础及应用基础研究,先后主持和参与国家级、省部级项目40余项,包括国家97课题、86项目、国家科技重大专项、国家科技支撑计划、国家自然科学基金重大项目及重点项目、国家社会科学基金重大项目等。获国家授权发明专利11项,发表学术论文余篇。

吴老师是做听觉模型出身,从5年起才较晚地进入到NLP领域。近年来吴老师团队开始深入研究听觉的发声和听觉的耦合关系,如何将其整合实现词汇的发音姿态表达,并研究发音姿态和客体模型的动作控制之间的关系。

本次报告首先对语音识别任务的工作假设进行反思,在此基础上基于听觉的"肌动理论(MotorTheory)",提出了一种结合发声物理模型的非监督自主学习方法,即具身学习(EmbodiedLearning)方法。

该方法通过正向物理模型和逆向听觉模型的迭代学习,实现了从任意非标注语音到声门激励信号和发声姿态参数的推断,实现了对语音具有可解释性的描述;通过在线自适应实现了对新语音的发声姿态推断,解决了模型学习的泛化问题。基于发声姿态可进一步实现任意语种的音系构建,为小语种和方言的语音识别、个性化语音合成任务提供了一个新的解决思路。

以下是演讲全文,AI科技评论进行了不改变原意的整理,文章已经过吴老师修改及确认。

1

大规模训练生成“梦话”

如何把声音和控制结合起来?大规模预训练模型的效果为什么那么好,背后原因何在?

我们认为,这类模型做的是预测工作,预测是一个主体生存最重要的任务。但它们的预测实现,比如基于已有词汇预测下一个词汇,都是基于词汇的嵌入向量进行的。从语法层面讲,这些嵌入向量是抽象的、多维的,不具有语言中的准确上下文关系。从语用层面将,言语是一种行为,是在特定语境下与他人之间有意识地特定行为。但GPT-缺失主体、时空、意图、手段、逻辑等。

因此,为了从表面上模拟这种预测,它需要巨量的数据才能够实现。即便能够实现,GPT-生成文本也是一种梦话,一种建立在大规模训练语言模型中的无意识“遣词造句”。

2跳出符号世界

语言学家索绪尔认为:每一个符号都由能指和所指组成,即符号=能指+所指。能指是语言符号的听觉特性,而对意义的探询是所指。

举个例子:对面的女孩子对我笑(能指),她喜欢我(所指)。即在这种情境下,笑=喜欢(隐喻),但是换种情境,或许笑=嘲讽(隐喻)。

所以在符号分析之中,自然语言处理要

转载请注明:http://www.0431gb208.com/sjsbszl/1862.html

  • 上一篇文章:
  • 下一篇文章: 没有了