FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架-爱论文

FantasyTalking是什么

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架，用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型，采用双阶段视听对齐策略，第一阶段通过片段级训练方案建立连贯的全局运动，第二阶段通过唇部追踪掩码在帧级别细化唇部运动，确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性，通过运动强度调制模块实现对表情和身体运动强度的控制。

FantasyTalking的主要功能

口型同步：能准确识别并同步虚拟角色的口型与输入语音，使角色在说话时的口型与语音内容完全一致，增强了角色的真实感和可信度。面部动作生成：根据语音内容和情感信息，生成相应的面部动作，如眨眼、皱眉、微笑等，使虚拟角色的表情更加丰富和生动。全身动作生成：能根据场景和情节需要，生成全身的动作和姿态，如行走、奔跑、跳跃等，使虚拟角色在动画中更加自然和流畅。运动强度控制：通过运动强度调制模块，用户可以显式控制面部表情和身体运动的强度，实现对肖像运动的可控操纵，不仅限于唇部运动。多种风格支持：支持多种风格的虚拟形象，写实风格、卡通风格，能生成高质量的对话视频。多种姿态支持：支持生成具有各种身体范围和朝向的逼真说话视频，包括特写肖像、半身、全身以及正面和侧面姿势。

FantasyTalking的技术原理

双阶段视听对齐策略片段级训练：在第一阶段，通过片段级训练方案，模型会捕捉音频与整个场景（包括参考肖像、上下文对象和背景）之间的弱相关性，建立全局的视听依赖关系，实现整体特征融合。使模型能学习到与音频相关的非语言线索（如眉毛运动、肩膀动作）和强音频同步的唇部动态。帧级训练：在第二阶段，模型专注于帧级与音频高度相关的视觉特征细化，特别是唇部动作。通过使用唇部追踪掩码，模型能确保唇部运动与音频信号精确对齐，提高生成视频的质量。身份保持：传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块，集中建模面部区域，通过交叉注意力机制解耦身份保留与动作生成。更轻量级，能解放对背景和人物自然运动的限制，确保在整个生成的视频序列中保持角色的身份特征。运动强度调节：FantasyTalking 引入了运动强度调制模块，能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵，不仅限于唇部运动。通过调节运动强度，可以生成更加自然和多样化的动画。基于预训练的视频扩散变换器模型：FantasyTalking 基于 Wan2.1 视频扩散变换器模型，基于时空建模能力，生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系，生成高质量的动态肖像。

FantasyTalking的项目地址

项目官网：https://fantasy-amap.github.io/fantasy-talking/Github仓库：https://github.com/Fantasy-AMAP/fantasy-talkingarXiv技术论文：https://arxiv.org/pdf/2504.04842

FantasyTalking的应用场景

游戏开发：在游戏开发中，FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作，使游戏角色更加生动逼真，提升游戏的视觉效果和玩家的沉浸感。影视制作：在影视制作中，可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色，减少传统动画制作中的人力和时间成本，为影视作品增添更多的创意和想象力。虚拟现实和增强现实：在虚拟现实（VR）和增强现实（AR）应用中，FantasyTalking 可以生成虚拟角色的交互动画和引导动画。虚拟主播：FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象，虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景，具有较高的实用性和灵活性。智能教育：在智能教育领域，FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。