当前位置: 网站首页 >AI教程资讯 >正文

TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

来源:爱论文 时间:2025-04-11 14:41:54

TrajectoryCrafter是什么

TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成,用双流条件视频扩散模型,将点云渲染和源视频作为条件,实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。TrajectoryCrafte用创新的双重重投影策略和混合数据集(结合动态单目视频与静态多视角数据)训练模型,显著提升在多样化场景中的泛化能力。TrajectoryCrafter 在多视角和大规模单目视频数据集上表现出色,能生成高保真、与源视频一致的新型轨迹视频,为沉浸式视频体验提供新的可能性。

TrajectoryCrafter

TrajectoryCrafter的主要功能

精确轨迹控制:用户指定任意相机轨迹(如平移、旋转、缩放等),生成与之匹配的视频内容。高保真视频生成:生成的视频在视觉上与原始视频保持一致,具备高质量的细节和纹理。4D一致性:生成的视频在空间上与目标轨迹一致,在时间上与原始视频保持连贯性,避免内容漂移或闪烁。多样化场景泛化:模型能适应各种场景,包括室内、室外、动态场景等,具有良好的泛化能力。

TrajectoryCrafter的技术原理

双流条件视频扩散模型:解耦视图变换与内容生成:将相机轨迹的确定性变换与内容生成的随机性分开处理。基于点云渲染实现精确的视图变换,用视频扩散模型生成高质量的内容。双流条件机制:模型包含两个条件输入:点云渲染(用在精确控制视图变换)和源视频(用在提供细节和纹理)。用独特的Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入到生成过程中,提升生成视频的保真度。动态点云渲染:深度估计将单目视频转换为动态点云,根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换,提供几何指导。混合数据集与训练策略:用混合数据集策略,结合网络规模的单目视频和静态多视角数据集进行训练。对于单目视频,用双重重投影策略生成大规模的训练样本。具体方法是将视频通过深度估计提升为点云,渲染新视图后再重新投影回原始视角,模拟点云渲染的效果。模型用两阶段训练策略,第一阶段专注于视图变换的准确性和缺失区域的合成;第二阶段用多视角数据集训练,提升生成视频与源视频的一致性。

TrajectoryCrafter的项目地址

项目官网:https://trajectorycrafter.github.io/GitHub仓库:https://github.com/TrajectoryCrafter/TrajectoryCrafterarXiv技术论文:https://arxiv.org/pdf/2503.05638在线体验Demo:https://huggingface.co/spaces/Doubiiu/TrajectoryCrafter

TrajectoryCrafter的应用场景

沉浸式娱乐:用在VR/AR,让用户自由切换视角,增强沉浸感。创意视频制作:帮助影视、短视频创作者添加新视角效果,提升内容吸引力。智能视频会议:动态调整会议视角,聚焦特定区域或人员,提升交互性。自动驾驶与机器人:生成多视角驾驶或导航场景,用在训练和测试算法。教育与培训:创建多视角教学视频,帮助学生更好地理解和学习。
上一篇:LanPaint – 零训练 AI 图像修复工具
相关资讯 更多+
  • TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术
    TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

    TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成,用双流条件视频扩散模型,将点云渲染和源视频作为条件,实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。

    AI教程资讯 2023-04-14

  • LanPaint – 零训练 AI 图像修复工具
    LanPaint – 零训练 AI 图像修复工具

    LanPaint 是 为Stable Diffusion 模型设计的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。LanPaint基于多轮迭代推理优化修复效果,支持无缝且准确的修复结果。LanPaint 提供简单易用的集成方式,与 ComfyUI 的工作流程一致,用户替换默认的采样器节点即可使用。

    AI教程资讯 2023-04-14

  • START – 阿里联合中科大推出的自学推理模型
    START – 阿里联合中科大推出的自学推理模型

    START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。

    AI教程资讯 2023-04-14

  • SeedFoley – 字节推出的端到端视频音效生成模型
    SeedFoley – 字节推出的端到端视频音效生成模型

    SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器,提取视频的时空特征,同时基于原始波形作为输入的音频表征模型,保留高频信息,提升音效细腻程度。

    AI教程资讯 2023-04-14

最新录入 更多+
确定