当前位置: 网站首页 >AI教程资讯 >正文

Generative Omnimatte – 谷歌联合马里兰大学等机构推出的视频分解技术

来源:爱论文 时间:2025-01-31 13:54:15

Generative Omnimatte是什么

Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每个图层对应一个物体及其相关效果(如阴影、反射等)。无需绿幕或深度信息,能实现物体与背景的精确分离,处理被遮挡的部分。Generative Omnimatte的核心是一个名为“Casper”的视频扩散模型,能精准擦除视频中的物体及其阴影,同时保持背景完好无损。用户能轻松实现各种创意效果,如瞬移、改变运动速度,甚至让时间倒流。

Generative Omnimatte的主要功能

视频分层:将视频分解成多个 RGBA 层,每个层包含一个完全可见的对象及其相关的效应,如阴影和反射。视频编辑:支持用户进行广泛的视频编辑操作,包括对象和效应的移除、背景替换等。动态背景处理:处理动态背景,避免背景元素与前景对象层的纠缠。多对象场景:有效处理包含多个对象的场景,包括相似对象的隔离和效应关联。用户指定的 Trimask:支持用户用指定 Trimask 精细控制视频编辑过程中的保留和移除区域。

Generative Omnimatte的技术原理

对象效应移除模型 Casper:给定输入视频和二进制对象掩码,用 Casper 模型生成干净的背景板和一系列单对象(solo)视频,应用不同的 Trimask 条件。Trimask 条件:Trimask 指定保留(白色)、移除(黑色)和可能包含不确定对象效应(灰色)的区域。有助于精确处理多对象场景。测试时优化:在第二阶段,用测试时优化从 solo 视频和背景视频对中重建 Omnimatte 层。训练数据:用多个数据集(Omnimatte、Tripod、Kubric 和 Object-Paste)训练模型,提供真实视频的因果关系示例,并增强模型处理多对象场景的能力。自注意力分析:基于分析 Lumiere 模型的自注意力模式,研究文本到视频(T2V)模型对对象效应关联的内在理解,训练有效的对象效应移除模型。

Generative Omnimatte的项目地址

项目官网:https://gen-omnimatte.github.io/arXiv技术论文:https://arxiv.org/pdf/2411.16683

Generative Omnimatte的应用场景

电影和视频制作:在电影制作中,移除不需要的背景元素,或者替换背景,实现特效场景的无缝合成。视频编辑和后期制作:视频编辑者分离视频中的对象和背景,进行颜色校正、特效添加或其他创意编辑。广告制作:在广告中,替换产品背景,或移除拍摄中的干扰元素,突出产品。虚拟现实和增强现实:在 VR 和 AR 应用中,将现实世界的视频内容与虚拟元素结合,提供更加沉浸式的体验。游戏开发:在游戏制作中,创建复杂的游戏环境,将现实世界的元素与虚拟游戏世界无缝融合。
上一篇:GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建
相关资讯 更多+
  • Generative Omnimatte – 谷歌联合马里兰大学等机构推出的视频分解技术
    Generative Omnimatte – 谷歌联合马里兰大学等机构推出的视频分解技术

    Generative Omnimatte 是 Google DeepMind 等机构推出的视频编辑技术,能将视频智能分解为多个透明背景的RGBA图层,每个图层对应一个物体及其相关效果(如阴影、反射等)。这项技术无需绿幕或深度信息,能实现物体与背景的精确分离,甚至处理被遮挡的部分。

    AI教程资讯 2023-04-14

  • GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建
    GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉多模态模型构建

    GLM-PC是智谱AI基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜索总结等任务,并支持远程和定时操作。GLM-PC能模拟人眼看、脑规划、手执行的方式使用电脑,具备跨平台能力,不依赖HTML或API,有更高的能力上限。

    AI教程资讯 2023-04-14

  • TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像
    TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像

    TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同,TryOffDiff的目标是从参考图像中提取出规范的服装图像。

    AI教程资讯 2023-04-14

  • GLM-Edge – 智谱开源的端侧大语言和多模态系列模型
    GLM-Edge – 智谱开源的端侧大语言和多模态系列模型

    GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1 5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。1 5B 2B模型主要面向手机、车机等平台、4B 5B 模型主要面向PC等平台。基于GLM-4系列技术积累,调整模型结构和尺寸,实现模型性能、实机推理效果和落地便利性之间的最佳平衡。

    AI教程资讯 2023-04-14

最新录入 更多+
确定