MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法-爱论文

MotionCanvas是什么

MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频（I2V）生成方法，能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入运动设计模块，让用户能直观地在图像上规划相机运动和物体运动，实现复杂的镜头设计。借助运动信号转换模块，MotionCanvas将用户在3D场景空间中的运动意图准确翻译为2D屏幕空间的控制信号，驱动视频扩散模型生成高质量视频。MotionCanvas支持联合控制相机和物体运动，生成具有复杂轨迹的长视频，实现物体局部运动的精细控制。

MotionCanvas的主要功能

联合控制相机和物体运动：用户在输入图像上直观地设计相机的运动路径（如平移、旋转、变焦等）和物体的全局运动（如移动、缩放等），及物体的局部运动（如手臂摆动等）。3D感知的运动控制：系统基于深度估计和运动信号转换模块，实现3D场景空间中的运动设计，将其转换为2D屏幕空间的运动信号，生成具有3D感知效果的视频。长视频生成：支持生成任意长度的视频，支持复杂的运动轨迹和连续的镜头设计。多样化的应用场景：支持应用于简单的视频编辑任务，如运动转移和基于初始帧编辑的视频生成。

MotionCanvas的技术原理

运动设计模块：用户输入图像作为“画布”，在3D场景空间中设计相机运动和物体运动。相机运动基于指定关键帧的相机姿态实现，物体运动则通过场景锚定的边界框和稀疏点轨迹定义。运动信号转换模块：将用户在3D场景空间中设计的运动意图转换为2D屏幕空间中的运动信号。模块基于深度估计和相机参数估计，将3D相机路径转换为2D点轨迹，将场景锚定的边界框和点轨迹转换为屏幕空间中的信号。运动条件视频生成模型：基于预训练的DiT（Diffusion Transformer）模型，微调使其能根据屏幕空间中的运动条件生成视频。模型基于编码点轨迹和边界框序列，作为条件信号输入到视频生成模型中，生成符合用户意图的视频。自回归生成：用自回归方式，将生成的视频片段作为后续生成的条件，逐步生成连续的视频内容，避免直接生成长视频可能导致的运动不连续性问题。

MotionCanvas的项目地址

项目官网：https://motion-canvas25.github.io/arXiv技术论文：https://arxiv.org/pdf/2502.04299

MotionCanvas的应用场景

电影与视频制作：快速设计复杂镜头，将静态图像转化为动态视频，用在广告、宣传等，提升视觉吸引力。动画创作：生成动画预览和角色动作，从静态故事板或图像中提取动态效果，提高创作效率。VR/AR体验：为虚拟和增强现实应用生成动态场景，增强用户沉浸感，支持实时交互。游戏开发：制作游戏过场动画和动态场景，提升游戏叙事性和视觉效果，丰富玩家体验。教育与培训：将静态教学图像转化为动态视频，用在课堂讲解和专业模拟训练，提高教学趣味性和效果。