毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

资深架构师眼中的虚拟人多模态人机交互

来源:语言识别 时间:2022/10/18

“你好,小布!附近有什么好吃的?”用户的话音刚落,手机上就出现了一个小窗口,让附近饭店的排名一目了然。对话中的“小布”是OPPO手机自带的智能助手,并在前段时间成为业界首个基于“虚拟人”多模态交互的手机智能助手。去年年末,“虚拟人”市场快速升温。除OPPO之外,京东、百度、阿里巴巴等科技企业都推出了自己的超写实数字人,B站还专门为虚拟主播开设分区,“虚拟人”已经走进了人们的生活。

“虚拟人”受到热捧的重要原因之一,是人们对人机交互的更深层次需要。从单纯的文本到语音,再到计算机视觉等技术的融合,人的天性倾向于融合视觉、听觉等多种感官的交互过程。而“虚拟人”背后的多模态人机交互技术,恰好能够满足人对外界信息获取逐渐升维的过程,让“虚拟人”看起来像人、听起来像人,更加具备人的温度。

“虚拟人”背后的技术支撑

人机交互走过了键盘交互、触摸交互、语音交互等若干阶段。如今,由于用户对人机交互的便利性、自然性以及准确性提出了更高要求,更加智能化且能够理解用户意图的多模态人机交互,开始成为人机交互发展的重要趋势。

在接受采访时,OPPO小布助手首席架构师万玉龙向《中国电子报》记者表示,当深度学习算法在各技术方向逐渐趋于产业化,智能交互变得愈发重要。在这之后,传感器、视觉技术、语音技术和自然语言处理技术等都进行了迭代升级,多种技术的融合形成了多模态人机交互方式。

通过文字、语音、视觉的理解和生成,结合动作识别和驱动、环境感知等多种方式,多模态人机交互能够充分模拟人与人之间的交互方式。万玉龙给记者举例道,地铁、银行、商场等复杂环境下的服务类机器人就是结合传感器、人脸识别、语音交互等技术来帮助人们完成信息查询、购票、商家导航等需求任务。

现阶段,多模态人机交互领域最火的代表就是“虚拟人”了。万玉龙向记者表示,得益于元宇宙概念的大火,“虚拟人”这一元宇宙世界的“小切口”也得到了业界的广泛

转载请注明:http://www.0431gb208.com/sjszjzl/2016.html