NutWorld – 新加坡国立、南洋理工和Skywork AI推出的视频处理框架
来源:爱论文
时间:2025-03-22 11:29:14
NutWorld是什么
NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussian Splatting)。NutWorld基于时空对齐高斯(STAG)表示法,在单次前馈传递中实现视频的时空连贯建模,解决传统方法在复杂运动和遮挡下的局限性。NutWorld结合深度和光流正则化技术,有效解决单目视频中的空间模糊和运动不确定性问题。NutWorld支持用高保真度重建视频,实时支持多种下游任务,如新视图合成、视频编辑、帧插值和一致深度预测等。

NutWorld的主要功能
高效视频重建:将日常单目视频转换为动态3D高斯表示(Gaussian Splatting),用高保真度重建视频内容。实时处理能力:支持实时处理,显著优于传统的优化方法。多种下游任务支持:新视图合成:从单目视频生成新的视角。视频编辑:支持精确的帧级编辑和风格化。帧插值:生成中间帧提高视频帧率。一致深度预测:提供时空连贯的深度估计。视频对象分割:基于传播对象掩码实现目标分割。时空连贯性:基于结构化的时空对齐高斯(STAG)表示,确保视频在时间和空间上的连贯性。
NutWorld的技术原理
时空对齐高斯(STAG)表示:将视频中的每个像素与一个3D高斯分布相关联,基于时空对齐的方式约束高斯分布。每个高斯分布具有位置、尺度、颜色、不透明度等属性,基于可变形场(deformation field)捕捉时间动态。前馈网络架构:基于Transformer的编码器-解码器架构,将输入视频帧映射到STAG表示。编码器基于Transformer块处理输入帧,捕捉时空对应关系;解码器预测静态高斯属性及其可变形场,支持高效的前馈预测。深度和光流正则化:引入深度正则化和光流正则化。深度正则化基于校准的单目深度先验增强深度预测的鲁棒性。光流正则化用预计算的光流场监督高斯分布的运动轨迹,确保时间连贯性。基于片段的推理:基于片段的推理策略,将长视频分割成多个重叠的片段进行处理。在重叠帧中传播高斯分布,保持全局时空一致性。
NutWorld的项目地址
GitHub仓库:https://github.com/Nut-World/NutWorld/arXiv技术论文:https://arxiv.org/pdf/2502.03465
NutWorld的应用场景
视频内容创作与编辑:用在新视图合成,从单目视频生成新视角;支持帧插值提高视频帧率;实现精确的视频编辑和风格化,为视频创作者提供强大的工具。增强现实与虚拟现实:实时重建动态3D场景,为AR/VR应用提供更准确的场景理解;自然融合虚拟对象到现实场景,增强用户体验。自动驾驶与机器人视觉:高效重建动态场景,提供深度和运动信息,助力自动驾驶环境感知;支持机器人在复杂环境中实时建模和人机交互。游戏开发:实时生成高质量3D场景,支持交互式内容和流畅游戏体验。培训行业:用在驾驶、飞行等培训模拟,提供逼真的动态场景,提高培训效果。