毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

WAIC2021好未来副总裁吴中勤多模态

来源:语言识别 时间:2023/2/2

机器之心报道

机器之心编辑部

在WAICAI开发者论坛上,好未来集团技术副总裁吴中勤发表主题演讲《多模态机器学习及大规模自动生成技术:算法框架、行业实践》,他主要介绍了多模态深度学习以及大规模自动生成技术在教育领域的实践与应用,并介绍了好未来AI研究院的最新研究成果及成功案例。

以下为吴中勤在WAICAI开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理:

非常高兴来到上海和大家一起交流人工智能算法和行业实践的一些工作,今天选取了与工作中非常相关的多模态深度学习、大规模自动生成技术,以及在行业中实践的案例,给大家带来相对更听得懂的演讲。

多模态机器学习

所谓的多模态就是机器和人可以感受到的电子信号的输入,包括声音、图象、自然对话的语言,甚至包括更多电子传感器信号。从中可以看到,多种模态的综合可以解决单一模态无法解决的问题,或者多模态可以更好的解决问题。

举例来说,人们早前的研究发现,如果单纯做语音识别,单从声音信号来做会损失一些信息,如果结合强大的识别唇语的能力,能够看到说话的画面,这样就会猜到说话的含义。所以,结合视觉与听觉识别的AVSR模型,是可以在更高的信噪比情况下取得更为鲁棒的识别效果。

多模态的问题,其实在整个现实生活当中,有非常多的研究涉及这一块。比如我们做的一些表情工作,一些媒体分析的工作,特别是前几年比较火热的Imagecaptioning、Videocaptioning,还有基于视觉、视频的自动问答系统,还包括整体的动作识别。比较经典的例子就是我们在看长视频的时候,如果有包含字幕就是典型的多模态问题。

多模态研究内容

多模态整个技术研究方向包括以下:表征,多个模态联合去做事物或者语义的联合表征;转换,在模态之间实现转换,例如输入文字出现画面,输入声音出现文字;融合,在做单模态识别之后做后端融合,把整个模态在分类阶段、工作阶段加以融合;对齐,比如一段文字、一个视频,怎么把其中物体和关系做对应;此外还包括模态之间的协同。

以实际工作来举例,好未来目前是国内比较大的K12的教育机构,课堂上其实会面临很多问题,许多授课是由老师和学生进行的,如果想要了解整节课堂运作下来整个授课质量如何、学生和老师之间交互如何,需要有打破物理世界到虚拟数字空间的一套算法加以映射,才能够解构课程教学黑匣子。

我们使用了GodEye这样一套教学辅助系统,这套系统是基于多模态深度学习理念打造的,可以针对课堂当中老师和学生各类行为进行智能识别,通过辅助授课老师在授课中视频片段、关键行为去定位老师和学生在课堂中的交互,最后提升学习效果。所以在画面当中可以看到整节课解构成一段段视频片段,在这个阶段老师和学生是怎么互动的?是做题、还是讲题、还是在讲知识点都可以进行解构。我们从右侧可以看到,在学生端可以在学习完成之后得到专属于自己的个性化学习报告,报告会包含你在课堂上参与了哪些环节,有哪些环节举手了、发言了、做题了,准确率怎么样,还包括在课堂中情绪曲线和

转载请注明:http://www.0431gb208.com/sjszjzl/3229.html

  • 上一篇文章:
  • 下一篇文章: 没有了