当前位置: 网站首页 >AI教程资讯 >正文

See3D – 智源研究院开源的无标注视频学习3D生成模型

来源:爱论文 时间:2025-01-27 11:01:13

See3D是什么

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同,See3D采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。避免了昂贵的3D或相机标注的需求,能高效地从互联网视频中学习3D先验。See3D支持从文本、单视图和稀疏视图到3D的生成,能进行3D编辑与高斯渲染。

See3D的主要功能

从文本、单视图和稀疏视图到3D的生成:See3D能根据文本描述、单个视角的图片或少量图片生成3D内容。3D编辑与高斯渲染:模型支持对生成的3D内容进行编辑,使用高斯渲染技术来提高渲染效果。解锁3D互动世界:输入图片后,可以生成沉浸式可交互的3D场景,支持用户实时探索真实空间结构。基于稀疏图片的3D重建:输入少量图片(3-6张),模型能生成精细化的3D场景。开放世界3D生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的3D场景。基于单视图的3D生成:输入一张真实场景的图片,模型能生成逼真的3D场景。

See3D的技术原理

视觉条件技术:See3D不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。大规模无标注视频学习:See3D能从互联网视频中高效学习3D先验,不依赖于昂贵的3D或相机标注。数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D,涵盖来自1600万个视频片段的3.2亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。多视图扩散模型训练:See3D引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的2D归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得3D”的目标。3D生成框架:See3D学到的3D先验能使一系列3D创作应用成为可能,包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

See3D的项目地址

项目官网:https://vision.baai.ac.cn/see3dGithub仓库:https://github.com/baaivision/See3DarXiv技术论文:https://arxiv.org/pdf/2412.06699

See3D的应用场景

游戏开发:AI生成的3D模型可以用于创建游戏中的角色、环境和对象,提高开发效率并降低成本。建筑设计:在建筑设计中,AI可以生成建筑模型,帮助设计师快速构思和修改设计方案。电商:在线零售可以利用AI生成的3D模型进行产品展示,提高用户的购物体验。AR/VR:在AR/VR领域,AI生成的3D模型可以用于创建逼真的虚拟环境和角色,增强用户的沉浸感。电影和娱乐:AI可以帮助电影制作人通过替换真人角色来创建CG角色,简化特效制作流程。工业设计:AI生成的3D模型可以用于模拟工业产品的设计,加速产品开发过程。
上一篇:VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率
相关资讯 更多+
  • See3D – 智源研究院开源的无标注视频学习3D生成模型
    See3D – 智源研究院开源的无标注视频学习3D生成模型

    See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同,See3D采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

    AI教程资讯 2023-04-14

  • VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率
    VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率

    VISION XL是高效的视频修复和超分辨率工具,基于潜在扩散模型技术,专注于解决高清视频的逆问题。工具能修复视频缺失部分、去除模糊,显著提升视频清晰度,最高可达四倍超分辨率。

    AI教程资讯 2023-04-14

  • SPDL – Meta AI 推出的开源高性能AI模型数据加载解决方案
    SPDL – Meta AI 推出的开源高性能AI模型数据加载解决方案

    SPDL(Scalable and Performant Data Loading)是 Meta AI 推出的开源数据加载工具,能提高 AI 模型训练效率。基于多线程技术,实现高吞吐量数据加载,减少计算资源消耗。与传统基于进程的方法相比,SPDL 提升2-3倍的吞吐量,与 Free-Threaded Python 兼容,能在禁用 GIL 的环境中进一步提升30%的性能。

    AI教程资讯 2023-04-14

  • CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术
    CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术

    CausVid是Adobe和MIT共同推出的自回归实时视频生成技术,能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型,减少视频生成的延迟,首帧延迟仅1 3秒,生成速度达到9 4帧 秒。CausVid突破传统视频生成模型的限制,支持多种应用。

    AI教程资讯 2023-04-14

最新录入 更多+
确定