当前位置: 网站首页 >AI教程资讯 >正文

DragAnything – 快手联合浙大等机构开源的可控视频生成方法

来源:爱论文 时间:2025-03-18 16:37:30

DragAnything是什么

DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体,克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。DragAnything 提供用户友好的交互方式,支持前景、背景及相机运动的灵活控制,在 FID、FVD 和用户研究等评估指标上达到新的最佳性能。

DragAnything

DragAnything的主要功能

实体级运动控制:对视频中的任何实体(包括前景和背景)进行精确的运动控制,不仅是像素级别的操作。多实体独立控制:支持同时对多个物体进行独立的运动控制,每个物体根据用户定义的轨迹进行不同的运动。用户友好的交互方式:用户基于简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。相机运动控制:除控制视频中的物体,DragAnything 能实现相机的运动控制,如缩放和平移。高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于多种应用场景。

DragAnything的技术原理

实体表示:推出新的实体表示方法,从扩散模型的潜在特征中提取语义信息表征视频中的每个物体。将物体的语义特征与运动轨迹相结合,实现精确的实体级运动控制。2D 高斯表示:引入 2D 高斯表示,基于高斯分布对物体的中心区域赋予更高的权重,减少边缘像素的影响,实现更自然的运动控制。扩散模型:基于扩散模型架构(如 Stable Video Diffusion),用强大的生成能力和去噪能力生成高质量的视频内容。扩散模型基于逐步去除噪声重建视频帧,结合用户输入的运动轨迹和实体表示。轨迹引导的运动控制:用户基于绘制简单的轨迹定义物体的运动路径,DragAnything 将轨迹与实体表示相结合,生成符合用户意图的视频内容,避免直接操作像素点的局限性,实现更自然和精确的运动控制。损失函数与优化:在训练阶段,用带有掩码的均方误差(MSE)损失函数,专注于优化用户指定区域的运动控制,保持其他区域的生成质量。

DragAnything的项目地址

项目官网:https://weijiawu.github.io/draganythingGitHub仓库:https://github.com/showlab/DragAnythingarXiv技术论文:https://arxiv.org/pdf/2403.07420

DragAnything的应用场景

视频创作与编辑:快速生成动画、调整物体运动轨迹,提升创作效率。游戏开发:生成角色动作和增强玩家的交互体验。教育与培训:辅助科学模拟和技能培训,帮助理解复杂运动过程。广告与营销:制作动态广告和产品展示,突出产品特点。娱乐与社交:生成互动视频和控制虚拟角色动作,增强趣味性。
上一篇:GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型
相关资讯 更多+
  • DragAnything – 快手联合浙大等机构开源的可控视频生成方法
    DragAnything – 快手联合浙大等机构开源的可控视频生成方法

    DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实现对视频中任意物体的精确运动控制。DragAnything用扩散模型的潜在特征表示视频中的每个实体,克服传统方法中单纯拖动像素点无法精确控制物体运动的局限性。

    AI教程资讯 2023-04-14

  • GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型
    GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型

    GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k 碱基对的上下文长度和 12 亿参数,训练数据涵盖 3860 亿 bp 的真核生物 DNA。

    AI教程资讯 2023-04-14

  • FoloUp – 开源AI语音面试平台,自动生成定制化面试问题
    FoloUp – 开源AI语音面试平台,自动生成定制化面试问题

    FoloUp 是开源的AI语音面试平台,能帮助企业高效地进行招聘面试。FoloUp能根据职位描述自动生成定制化的面试问题,基于AI技术与候选人进行自然、对话式的语音面试。平台能实时分析候选人的回答,生成详细的评分和洞察报告。

    AI教程资讯 2023-04-14

  • ConsistentDreamer – 华为推出的单张图像生成 3D 资产技术
    ConsistentDreamer – 华为推出的单张图像生成 3D 资产技术

    ConsistentDreamer 是华为慕尼黑研究中心提出的新型图像到 3D 资产生成技术,通过单张图像生成视图一致的 3D 网格。方法通过多视图先验图像引导的高斯优化,解决了传统方法在多视图一致性上的不足。

    AI教程资讯 2023-04-14

最新录入 更多+
确定