当前位置: 网站首页 >AI教程资讯 >正文

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

来源:爱论文 时间:2025-01-22 09:22:00

LeviTor是什么

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路,拓宽创意应用范围,适用于更广泛的用户群体。

LeviTor

LeviTor的主要功能

精确操控物体运动:在从静态图像生成视频时,精确控制物体的运动轨迹。增强创意应用:基于3D轨迹控制,拓宽视频合成的创意应用范围。简化用户输入:用户用简单的2D图像上的绘制和深度调整输入3D轨迹,降低技术门槛。自动提取深度信息和物体掩码:系统自动从图像中提取深度信息和物体掩码,减少用户操作。交互式轨迹绘制:用户交互式地绘制物体轨迹,系统将其解释为3D路径。

LeviTor的技术原理

K-means聚类:对视频对象掩码(mask)的像素进行K-means聚类,得到一组代表性的控制点。深度信息融合:深度估计网络DepthAnythingV2预测相对深度图,并在每个控制点采样深度,为控制点增添深度信息。控制信号构建:结合2D坐标和估计的深度值,构建控制轨迹,轨迹作为视频扩散模型的控制信号。视频扩散模型:将控制信号输入到视频扩散模型中,生成与3D轨迹对齐的视频。用户友好的推理流程:设计用户友好的交互系统,用户用点击和调整深度值输入3D轨迹。

LeviTor的项目地址

项目官网:ppetrichor.github.io/levitorGitHub仓库:https://github.com/qiuyu96/LeviTorHuggingFace模型库:https://huggingface.co/hlwang06/LeviTorarXiv技术论文:https://arxiv.org/pdf/2412.15214

LeviTor的应用场景

电影特效制作:生成逼真的特效场景,减少实地拍摄成本,提高制作效率。游戏动画生成:在游戏开发中,创造动态的游戏背景和角色动画,增强游戏的沉浸感。虚拟现实体验:在VR应用中合成逼真的虚拟环境,为用户提供更加真实的沉浸式体验。增强现实展示:在AR领域将虚拟信息与现实世界无缝结合,用在教育、导航等场景。广告视频制作:制作动态广告视频,吸引观众注意力,提升品牌形象和产品吸引力。
上一篇:3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目
相关资讯 更多+
  • LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术
    LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

    LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。

    AI教程资讯 2023-04-14

  • 3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目
    3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目

    3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码,及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。

    AI教程资讯 2023-04-14

  • ERA-42 – 星动纪元推出的端到端原生机器人大模型
    ERA-42 – 星动纪元推出的端到端原生机器人大模型

    ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新技能的能力,能在2小时内用少量数据学会新任务。

    AI教程资讯 2023-04-14

  • Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型
    Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型

    Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用领域自约束训练,在保持通用能力的同时,增强金融知识。

    AI教程资讯 2023-04-14

最新录入 更多+
确定