Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架-爱论文

Sonic是什么

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架，基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器，分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动，增强局部音频感知能力。Sonic用时间感知位置偏移融合机制，将局部音频感知扩展到全局，解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法，显著提升肖像动画的自然性和连贯性，支持用户对动画的精细调整。

Sonic的主要功能

逼真的唇部同步：精确地将音频与唇部动作对齐，确保说话内容与嘴型高度一致。丰富的表情和头部动作：生成多样化且自然的面部表情和头部运动，让动画更具生动性和表现力。长时间稳定生成：在处理长视频时，能保持稳定的输出，避免抖动和突变，确保整体连贯性。用户可调节性：支持用户基于参数调整控制头部运动、表情强度和唇部同步效果，提供高度的可定制性。

Sonic的技术原理

上下文增强音频学习：提取音频片段内的长期时间音频知识，将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Whisper-Tiny模型提取音频特征，基于多尺度理解将特征与空间交叉注意力层结合，指导空间帧的生成。运动解耦控制器：将头部运动和表情运动解耦，分别用独立的参数控制，增强动画的多样性和自然性。支持用户自定义夸张运动，基于调整运动桶参数（motion-bucket parameters）控制头部和表情运动的幅度。时间感知位置偏移融合：基于时间感知的滑动窗口策略，将音频片段的局部感知扩展到全局感知，解决长视频生成中的抖动和突变问题。在每个时间步中，模型从新的位置开始处理音频片段，逐步融合全局音频信息，确保长视频的连贯性。全局音频驱动：Sonic完全依赖音频信号驱动动画生成，避免传统方法中对视觉信号（如运动帧）的依赖，提高生成的自然性和时间一致性。音频信号作为全局信号，为面部表情和头部运动提供隐式的先验信息，让生成的动画更加符合音频内容。

Sonic的实验结果

定量比较：在 HDTF 和 CelebV-HQ 数据集上，Sonic 在多个评估指标上优于现有的 SOTA 方法，包括 FID（Fréchet Inception Distance）、FVD（Fréchet Video Distance）、唇部同步精度（Sync-C、Sync-D）和视频流畅度（Smoothness）。Sonic 的 FID 和 FVD 分数显著低于其他方法，表明其生成的视频质量更高，与真实数据的一致性更好。定性比较：Sonic 能生成更自然、更多样的面部表情和头部动作，尤其是在处理复杂背景和不同风格的肖像时，表现出更强的鲁棒性。