DreamActor-M1 – 字节跳动推出的 AI 图像动画框架-爱论文

DreamActor-M1是什么

DreamActor-M1是字节跳动推出的先进AI图像动画框架，能将静态人物照片转化为生动的动画视频。采用混合引导机制，结合隐式面部表示、3D头部球体和3D身体骨架等控制信号，实现对人物面部表情和身体动作的精准控制。支持多语言语音驱动面部动画，可生成口型同步结果。 DreamActor-M1具有高保真度和身份保持能力，生成的视频在时间上连贯性强。

DreamActor-M1的主要功能

静态照片转动态影像：通过结合一张静态照片和一段参考动作视频，将照片中的人物无缝替换到视频场景中，生成表情细腻、动作自然且画质高清的动态影像。精细控制：结合隐式面部表示、3D头球和3D身体骨架，实现对面部表情和身体动作的稳健控制。灵活的运动转移：支持仅传递部分运动，例如面部表情和头部运动。面部动画支持：可扩展至音频驱动的面部动画，实现多语言的口型同步。形状感知动画：通过骨骼长度调整技术，实现形状适应的动画生成。多样化风格支持：对各种角色和运动风格具有鲁棒性。多种视角支持：能在不同的头部姿态下生成动画结果。

DreamActor-M1的技术原理

混合引导机制：DreamActor-M1 采用混合引导机制，结合隐式面部表示、3D 头球和 3D 身体骨架等控制信号，实现对人物面部表情和身体动作的精准控制。这种混合引导方式能够确保生成的动画在细节上高度逼真，同时保持整体的协调性和流畅性。多尺度适应性：框架通过逐步训练策略，能处理各种身体姿势和不同分辨率的图像，支持从肖像到全身视图的转换。这种多尺度适应性使得 DreamActor-M1 可以在多种场景下生成高质量的动画内容。长期时间一致性：DreamActor-M1 通过整合连续帧的运动模式和视觉参考，确保在复杂动作中未观察区域的时间一致性。对于生成长时间的连贯动画至关重要，能避免常见的“穿帮”现象。面部动画与语音支持：框架支持音频驱动的面部动画，能实现多语言的口型同步。可以通过语音输入来驱动面部表情的变化，生成自然的口型动作，进一步增强了动画的真实感。形状感知动画：DreamActor-M1 具备形状感知动画的能力，通过骨骼长度调整技术，能实现形状适应的动画生成。使生成的动画能更好地适应不同人物的身体特征。

DreamActor-M1的项目地址

项目官网：https://grisoon.github.io/DreamActor-M1/arXiv技术论文：https://arxiv.org/pdf/2504.01724

DreamActor-M1的应用场景

虚拟角色创作：能将演员的表演无缝转移到虚拟角色上，捕捉演员的面部表情、动作节奏以及情感细节，为虚拟角色赋予生动的情感和动作。个性化动画视频生成：用户可以将自己的照片转化为生动有趣的动画视频，增加内容的趣味性和吸引力。比如将一张静态照片制作成跳舞、唱歌等有趣动作的动画视频，分享到社交媒体上。虚拟主播与网红：可用于制作虚拟主播或网红，降低制作成本和时间。虚拟主播可以 24 小时不间断地进行直播、发布内容，形象和风格可以根据需求定制。创意广告制作：广告公司可以用技术快速生成具有吸引力的广告视频，将产品与生动的人物动画相结合，提高广告的吸引力和传播效果。