DragAnything – 快手联合浙大等机构开源的可控视频生成方法-爱论文

DragAnything是什么

DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的，基于实体表示的可控视频生成方法，基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体，克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。DragAnything 提供用户友好的交互方式，支持前景、背景及相机运动的灵活控制，在 FID、FVD 和用户研究等评估指标上达到新的最佳性能。

DragAnything的主要功能

实体级运动控制：对视频中的任何实体（包括前景和背景）进行精确的运动控制，不仅是像素级别的操作。多实体独立控制：支持同时对多个物体进行独立的运动控制，每个物体根据用户定义的轨迹进行不同的运动。用户友好的交互方式：用户基于简单的交互（如选择区域并拖动）实现复杂的运动控制，无需复杂的输入信号（如分割掩码或深度图）。相机运动控制：除控制视频中的物体，DragAnything 能实现相机的运动控制，如缩放和平移。高质量视频生成：在保持运动控制精度的同时，生成高质量的视频内容，适用于多种应用场景。

DragAnything的技术原理

实体表示：推出新的实体表示方法，从扩散模型的潜在特征中提取语义信息表征视频中的每个物体。将物体的语义特征与运动轨迹相结合，实现精确的实体级运动控制。2D 高斯表示：引入 2D 高斯表示，基于高斯分布对物体的中心区域赋予更高的权重，减少边缘像素的影响，实现更自然的运动控制。扩散模型：基于扩散模型架构（如 Stable Video Diffusion），用强大的生成能力和去噪能力生成高质量的视频内容。扩散模型基于逐步去除噪声重建视频帧，结合用户输入的运动轨迹和实体表示。轨迹引导的运动控制：用户基于绘制简单的轨迹定义物体的运动路径，DragAnything 将轨迹与实体表示相结合，生成符合用户意图的视频内容，避免直接操作像素点的局限性，实现更自然和精确的运动控制。损失函数与优化：在训练阶段，用带有掩码的均方误差（MSE）损失函数，专注于优化用户指定区域的运动控制，保持其他区域的生成质量。