助力元宇宙：基于深度学习的数字人面部动画解决方案

123456879 发表于 2023-9-10 07:07:11

wuhu专题

https://p3-sign.toutiaoimg.com/pgc-image/93c68e4c612c41f1a49c941302d8d5ba~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=0Z3QqkwXiKnDhdKhvnwhuDT%2BE%2Fw%3D

随着数字技术的迅猛发展，写实数字人在各行业领域展现出广阔的应用前景和市场，依托于数字孪生和数字人技术，更衍发出最近非常火爆的元宇宙概念。

https://p3-sign.toutiaoimg.com/pgc-image/508b1bbabbe9467a8659d93043ecb3e7~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.jpeg?x-expires=2009662249&x-signature=2w%2FGRG8jAAHBA2Q0CoWhj7w3ZM0%3D

原力数字科技依托在动画制作领域长期积累的深厚技术经验，自主研发出一套基于深度学习的数字人面部动画解决方案，实现了从智能计算到动画生产制作的应用落地。

这套基于深度学习的数字人面部动画解决方案包含三个模块，分别从面部动作采集，面部动画绑定以及声音驱动三个角度全方位提升超写实数字人面部动画制作效能。

OF_DeepFace: 基于神经网络的无标记点实时面部动画捕捉系统

在三维角色面部动画制作领域，准确捕捉演员表演并将动画迁移到高精度数字角色上一直是一项充满挑战性的工作。

不同于一般人想象中的轻松有趣，面部动画捕捉流程通常包括价值不菲且步骤复杂的硬件设置，以及琐碎繁杂的校准流程。

表演者需要坐在由大量专业摄像机布置的摄影空间接受头部扫描里，然后在固定空间内进行面部表演。艺术家则需要对拍摄好的数据做大量的精修处理，用于生成高精度的面部表情数据。

https://p3-sign.toutiaoimg.com/pgc-image/281daf40c3424389a23ec8a3217cfe0f~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=gdPl4jSsYamSnl%2BBrUhzkJjz%2FZ8%3D

（原力自主研发的新一代高速面部扫描捕捉系统Lightstage）

市面上较为流行的商业软件，例如Faceware，同样需要大量的人工手动校准步骤，艺术家需要将每帧视频上的关键点位置与3D虚拟角色的面部绑定一一对应，并在解算效果不好的情况下进行手动修正。

一部普通的商业动画(时长1~1.5小时)通常涉及到数十万帧的动画数据，制作以及后续的3D虚拟角色面部动画数据精修，都需要花费大量时间以及人工成本，更不用说在这些高品质角色面部动画的背后需要投入的高级艺术家的制作经验和技能，都造成了成本高，产出低的现状。

那么
原力最新自研的面部实时驱动技术
做到了什么呢？

https://p3-sign.toutiaoimg.com/pgc-image/0fb26338b5294dc4891bfe460d4df001~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=d5kMxMlkhvoTa%2B4Yxcd0zP3%2BDRA%3D

首先，它提供了一套基于深度学习的无标记点三维角色面部动画制作流程系统。该系统不需要购置高端摄像硬件设备，无需对每帧模型做多摄像机立体重建工作，也不必手动校正关键点与虚拟角色的面部绑定。只需要一套轻型红外摄像头盔，就能实现从演员表演到3D虚拟角色动画的实时转换。

基于深度学习的面部实时驱动系统底层是一套经过泛化的神经网络模块，可以根据演员表演时录制的红外视频直接解算出3D角色的面部绑定动画参数值，演员驱动角色动画这一过程完全由神经网络推理得出。

而且由于神经网络具有极高的推理速度这一特性，即使是在高精度的三维模型上，OF_DeepFace同样可以表现出较高的性能，实现实际帧率达到60fps的极佳效果，为实时直播提供了一种全新的解决方案。

https://p3-sign.toutiaoimg.com/pgc-image/cfef615657c845afb65f6d306d32c7e2~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=T%2BJGoOsa4EwQYklV6X4z9BR8GR0%3D

https://p3-sign.toutiaoimg.com/pgc-image/9c5ea5e39dd24ca5b1a80f67e9f1f0ba~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=OFry0rky13qrCEAn%2BjHQsIOzT%2FE%3D

（演员表演视频在实时游戏引擎中驱动的3D角色面部动画）

OF_DeepFace也兼容各类3D面部绑定系统（包括Metahuman）。针对不同的面部绑定系统，系统中代码将随机生成训练数据用于网络训练，并生成针对此绑定系统的网络推理模型，整个生成过程无需预先准备手工标定的任何数据。

https://p3-sign.toutiaoimg.com/pgc-image/6f6500a474eb480896e7f8ef93a81b8b~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=L%2F%2BHYk%2FW8gTMV3xP85GqrvAenQc%3D

https://p3-sign.toutiaoimg.com/pgc-image/7bdafc23eaae46b9a22167dbffb31ef7~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=uOaUGB20IH2Wcj0nzGP5nd%2BYWrs%3D

（对于Unreal 引擎提供MetaHuman绑定系统的驱动效果）

OF_DeepFace除了提供实时直播解算模块的解决方案，还提供与动画实际制作流程无缝融合的DCC软件解算模块解决方案。

本工具既可以在实时游戏引擎中以每秒60帧的速度从动捕实拍演员表演视频中直接计算出3D角色面部表情动画数据，也可以作为动画制作流程中的前期步骤。

动画师在制作开始时，直接导入当天演员拍摄视频得到对应虚拟角色的动画场景文件，动画师可以在DCC软件中直接比较拍摄视频与深度学习解算结果的差异，并进行艺术加工。

OF_DeepFace抛弃了传统表演拍摄(Performance capture)的复杂流程，解决了过往制作面部动画过程需要大量人工标注的痛点，提供了一套简洁方便、用户友好型的制作流程，大幅提升了动画生产制作流程的生产力。艺术家可以省去大量繁琐的人工修正工作，从而将更多的时间转移至提升艺术表现效果上。

OF_DeepRig: 基于神经网络的面部绑定加速模块

仅有对面部动画捕捉的流程优化并不足以完全解决高精度数字角色制作方面的问题。在高保真度数字电影制作过程中，为了生成表情逼真的角色面部动画，绑定艺术家通常会为角色头部制作极其复杂的绑定控件以及修形变形器blendshape，导致绑定解算节点图庞大复杂，场景过重，使得软件交互速度大幅下降，无法做到实时播放，同时影响后续动画制作环节的效率。

事实上，绑定环节造成的速度下降一直是动画制作流程中的一个顽固痛点。每个动画制作公司都尝试使用各种传统方法来加速绑定解算过程，但由于DCC软件自身架构的限制，这些尝试并没有实现较为显著的突破。

在实现OF_DeepFace解决方案的开发过程中，为了提升原有3D角色面部绑定系统的效果以及交互速度，原力研发团队提出了一种基于大数据的构想：

模拟逼真的面部肌肉运动生成海量面部网格形变数据作为训练数据供深度神经网络学习。由于训练数据源自于肌肉模拟，因此能够实现比以往单纯使用blendshape更加逼真的动画效果，同时此神经网络结构轻便，更赋予了它实时推理的特性。

基于上述思路，原力研发团队研发出了一套基于神经网络的面部绑定加速系统，以及模拟面部肌肉运动的面部实时绑定系统——OF_DeepRig。

OF_DeepRig根据原有绑定结构，分析当前场景中所有绑定相关控制器，自动随机生成海量训练数据并发送到云端进行训练。训练完成后，本地绑定文件中所有与面部绑定相关的节点以及它们之间的连接关系图被一个神经网络定制节点取代。该神经网络定制节点带有原绑定系统的所有控制器控制参数，用户只需要调节控制参数就能实时在当前场景中看到3D角色面部上对应的变形效果。

同时，此神经网络结构精简，推理速度可以达到实时，即使场景中有多个角色，依旧能够在场景中实现面部实时变形的效果。

https://p26-sign.toutiaoimg.com/pgc-image/5c67eaedfbb6497388a824c5e31a870e~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=wPX7TABnqX8H9Y9Bp0V7kni%2FYu8%3D

https://p3-sign.toutiaoimg.com/pgc-image/fa690a38e6624339b04c0ca912010c62~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=AbMYY%2Bmureu62lywt3CLeIZ%2BR1c%3D

（OF_DeepRig在引擎中运行速率（左边）与原有绑定的运行速度（右边）对比）

OF_DeepRig以DCC软件插件形式部署到制作流程中，适配市面上各种面部绑定系统（包括3D高保真写实角色面部绑定或者卡通人物面部绑定系统），只需要3D角色面部绑定文件，就能生成对应的训练数据并训练对应的神经网络以及对应的节点，实现对动画艺术家透明的绑定加速，极大提高了DCC软件交互反应速度，颠覆性地改进了动画制作流程。

但是你以为这就完了？
不，原力还开发了一个好东西！
接着往下看！

OF_Deep_Audio2Animation: 基于音频分析的面部动画驱动模块

在数字人物领域，如何自动实时生成说话的准确嘴形动画一直是一个挑战，针对这一难题，原力研发团队又双叒拿出了新的研发成果！

是的，就是这款从语音文件自动实时生成面部动画的应用模块——
OF_Deep_Audio2Animation

OF_Deep_Audio2Animation基于一个从音频特征直接生成面部控制器数值的神经网络，训练好的神经网络接收音频数据特征作为输入，解算输出数字人对应的面部动画控制器参数，从而自动生成自然流畅的数字人面部动画。

OF_Deep_Audio2Animation提取音频数据的fbank特征、结合deepspeech模块的音频特征具有一定的泛化性，面部控制器也是一套标准的面部控制器系统 (例如上文中的OF_DeepRig面部绑定系统), 在这两点的基础上，原力成功实现了对语音数据的泛化以及对于多种数字人角色的泛化功能。

https://p3-sign.toutiaoimg.com/pgc-image/57ab3355bf544cfd89fc53d02b87090a~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=FAQqTKrUFTgpxU957bGKiSTYnN0%3D

https://p3-sign.toutiaoimg.com/pgc-image/47a5a4bc1f794d509ab31ab5eb26c3aa~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.image?x-expires=2009662249&x-signature=tUOQH1VeYKTUyRgb%2BAK%2F8OiPimY%3D

（语音直接实时自动生成的数字人唇形动画，没有任何手工加工）

OF_Deep_Audio2Animation既可以适应录制的自然语音，也可以适用于TTS(Text to Speech)生成的合成语音。

训练好的网络既可以部署成UE插件，实现通过改变台词来改变数字人面部动画的功能模块，也可以作为网络服务模块放到云端，根据服务请求解析音频，将深度学习网络解算结果推流到本地移动设备上，实现语音驱动逼真流畅的数字人角色动画。

目前原力已经决定将上述技术对行业内外全面开放合作，如果您对以上技术感兴趣，并愿意与原力研发部门进行更深入的交流与合作，请发送邮件至 dev@of3d.com与原力联系。

https://p3-sign.toutiaoimg.com/pgc-image/2beb3a1f20b54aa18a0fda64f15e2444~tplv-tt-large-asy2:5aS05p2hQHd1aHXliqjnlLvkurrnqbrpl7Q=.jpeg?x-expires=2009662249&x-signature=hwk5fUVIkXMOCipcuFTlLGOqa2o%3D

<hr>

—END—

页: [1]

创业那点事's Archiver

助力元宇宙：基于深度学习的数字人面部动画解决方案