数字人正走进现实AI大脑高颜值,白皮

来源：语言识别时间：2022/10/11

虚拟数字人,是存在于数字世界的“人”，通过动作捕捉、三维建模、语音合成等技术高度还原真实人类，再借助AR/MR/VR等终端呈现出来的立体“人”。在人工智能、虚拟现实等新技术浪潮的带动下，虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升，开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。

12月3日，首届数字人开发者大会在北京召开。首届数字人行业盛会由国家互联网信息办公室信息化发展局和中关村科技园区管理委员会作为指导单位，中国信息通信院、浦发银行以及中关村数智人工智能产业联盟主办，凌云光技术协办。会上，中国人工智能产业发展联盟（简称“AIIA联盟”）和中关村数智人工智能产业联盟（简称“ZAI联盟”）数字人工作委员会首次发布了《年虚拟数字人发展白皮书》，白皮书回顾了虚拟数字人发展历程，重点分析了虚拟数字人关键技术和产业发展现状，对虚拟数字人的未来发展趋势进行了展望，剖析了数字人发展中的制约因素。

本期内参来源：中国人工智能产业发展联盟中关村数智人工智能产业联盟

原标题：

《年虚拟数字人发展白皮书》

作者：颜媚等

一、什么是虚拟数字人

1、虚拟数字人研究范畴

“虚拟数字人”一词最早源于年美国国立医学图书馆发起的“可视人计划”(VisibleHumanProject,YHP)。年,国内以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第次学术讨论会提出了“数字化虚拟人体”的概念。

这些“虚拟数字人”主要是指人体结构的可视化，以三维形式显示人体解剖结构的大小、形状、位置及器官间的相互空间关系，即利用人体信息，实现人体解剖结构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。

与上述医疗领域的数字化人体不同，本篇中所分析的虚拟数字人（以下简称“数字人”）是指具有数字化外形的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征：

一是拥有人的外观，具有特定的相貌、性别和性格等人物特征；

二是拥有人的行为，具有用语言、面部表情和肢体动作表达的能力；

三是拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

2、虚拟数字人发展历程

虚拟数字人的发展与其制作技术的进步密不可分，从最早的手工绘制到现在的CG（ComputerGraphics，电脑绘图）、人工智能合成，虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段，详见下图。

▲虚拟数字人发展历程

20世纪80年代，人们开始尝试将虚拟人物引入到现实世界中，虚拟数字人步入萌芽阶段。该时期虚拟数字人的制作技术以手工绘制为主，应用极为有限。年，日本动画《超时空要塞》播出后，制作方将女主角林明美包装成演唱动画插曲的歌手，并制作了音乐专辑，该专辑成功打入当时日本知名的音乐排行榜Oricon，林明美也成为了世界上第一位虚拟歌姬。

年，英国人GeorgeStone创作出一个名为MaxHeadroom的虚拟人物，MAX拥有人类的样貌和表情动作，身穿西装，佩戴墨镜，曾参演了一部电影，拍摄了数支广告，一度成为英国家喻户晓的虚拟演员。由于技术的限制，其虚拟形象是由真人演员通过特效化妆和手绘实现。

21世纪初，传统手绘逐渐被CG、动作捕捉等技术取代，虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实用水平，但造价不菲，主要出现在影视娱乐行业，如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉技术，真人演员穿着动作捕捉服装，脸上点上表情捕捉点，通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理，经计算机处理后赋予给虚拟角色。

年，《指环王》中的角色咕噜就是由CG技术和动作捕捉技术产生，这些技术后续还在《加勒比海盗》、《猩球崛起》等电影制作中使用。年，日本制作了第一个被广泛认可的虚拟数字人“初音未来”，初音未来是二次元风格的少女偶像，早期的人物形象主要利用CG技术合成，人物声音采用雅马哈的VOCALOID系列语音合成，呈现形式还相对粗糙。

近五年，得益于深度学习算法的突破，数字人的制作过程得到有效简化，虚拟数字人开始步入正轨，进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具，智能驱动的数字人开始崭露头角。

年，新华社与搜狗联合发布的“AI合成主播”，可在用户输入新闻文本后，在屏幕展现虚拟数字人形象并进行新闻播报，且唇形动作能与播报声音实时同步。

年，浦发银行和百度共同发布的数字员工“小浦”，也是利用自然语言处理、语音识别、计算机视觉等人工智能技术制作的虚拟数字人，可通过移动设备为用户提供“面对面”的银行业务服务。

当前，虚拟数字人正朝着智能化、便捷化、精细化、多样化发展，步入成长期。年，美国影视特效公司数字王国软件研发部负责人DougRoble在TED演讲时展示了自己的虚拟数字人“DigiDoug”，可在照片写实级逼真程度的前提下，进行实时的表情动作捕捉及展现。今年，三星旗下的STARLabs在CES国际消费电子展上展出了其虚拟数字人项目NEON，NEON是一种由人工智能所驱动的虚拟人物，拥有近似真人的形象及逼真的表情动作，具备表达情感和沟通交流的能力。

3、当前虚拟数字人通用系统框架及运作流程

当前虚拟数字人作为新一代人机交互平台，仍处于发展期，还未有统一的通用系统框架。这份白皮书根据虚拟数字人的制作技术以及目前市场上提供的数字人服务和产品结构，总结出虚拟数字人通用系统框架，如下图所示。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。

人物形象根据人物图形资源的维度，可分为2D和3D两大类，从外形上又可分为卡通、拟人、写实、超写实等风格；语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画；音视频合成显示模块将语音和动画合成视频，再显示给用户。交互模块使数字人具备交互功能，即通过语音语义识别等智能技术识别用户的意图，并根据用户当前意图决定数字人后续的语音和动作，驱动人物开启下一轮交互。

▲虚拟数字人通用系统框架

交互模块为扩展项，根据其有无，可将数字人分为交互型数字人和非交互型数字人。非交互型数字人体统的运作流程如下图非交互类虚拟数字人系统运作流程所示。系统依据目标文本生成对应的人物语音及动画，并合成音视频呈现给用户。

▲非交互类虚拟数字人系统运作流程

交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。

该人物模型是预先通过AI技术训练得到的，可通过文本驱动生成语音和对应动画，业内将此模型称为TTSA（TextToSpeechAnimation）人物模型。真人驱动型数字人则是通过真人来驱动数字人，主要原理是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。

▲智能驱动型虚拟数字人运作流程

▲真人驱动型虚拟数字人运作流程

二、虚拟数字人关键技术趋势

1、虚拟数字人技术架构

当前，虚拟数字人的制作涉及众多技术领域，且制作方式尚未完全定型，通过对现有虚拟数字人制作中涉及的常用技术进行调研，本白皮书在虚拟数字人通用系统框架的基础上提炼出五横两纵的技术架构，如下图所示。

“五横”是指用于数字人制作、交互的五大技术模块，即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中，人物表达包括语音生成和动画生成。动画生成则包含驱动（动作生成）和渲染两大部分。“两纵”是指2D、3D数字人，3D数字人需要额外使用三维建模技术生成数字形象，信息维度增加，所需的计算量更大。

▲虚拟数字人技术架构

这份白皮书重点

转载请注明：http://www.0431gb208.com/sjslczl/1919.html

上一篇文章：智能语音市场迎来爆发潮,声加科技以前端核

下一篇文章：没有了