GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架-爱论文

GaussianAnything是什么

GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空间和级联的流匹配模型，实现高质量、可扩展的 3D 内容生成。GaussianAnything支持多模态条件输入，包括点云、文本和单/多视图图像，能生成具有几何-纹理解耦的 3D 资产，便于后续编辑。GaussianAnything 在文本和图像引导的 3D 生成任务中均超越现有方法，展现了更好的 3D 一致性和生成效果。

GaussianAnything的主要功能

多模态条件输入：支持多种输入形式，包括点云、文本描述和单/多视图图像。高质量 3D 生成：生成具有丰富细节和高质量表面的 3D 模型，支持不同分辨率和细节层次的输出。高效的 3D 编辑能力：支持对生成的 3D 模型进行灵活的编辑，例如形状调整、纹理替换等。支持多种输出格式：生成的 3D 模型支持导出为点云、高斯表面（Surfel Gaussian）或三角网格（Mesh），满足不同应用场景的需求。

GaussianAnything的技术原理

3D VAE 编码器：用多视图 RGB-D（深度）和法线（Normal）渲染图作为输入，基于 3D-Attention Transformer 编码器将 3D 物体压缩到点云结构化的潜空间中，保留丰富的 3D 几何和纹理信息，降低潜空间的维度，提高训练效率。点云结构化潜空间：基于 Cross Attention 将特征投影到稀疏的 3D 点云上，形成点云结构化的潜变量，保留 3D 物体的几何信息，支持高效的 3D 扩散模型训练。级联扩散模型：第一阶段：生成稀疏点云，确定 3D 物体的几何布局。第二阶段：基于点云条件生成纹理细节，实现几何与纹理的解耦。高质量解码器：用 3D Transformer 和上采样模块将点云潜变量逐步上采样为高分辨率的高斯表面（Surfel Gaussian），最终解码为稠密的 3D 模型。

GaussianAnything的项目地址

项目官网：https://nirvanalan.github.io/projects/GA/GitHub仓库：https://github.com/NIRVANALAN/GaussianAnythingarXiv技术论文：https://arxiv.org/pdf/2411.08033在线体验Demo：https://huggingface.co/spaces/yslan/GaussianAnything

GaussianAnything的应用场景

3D 游戏与影视特效：快速生成高质量的 3D 模型，简化内容创作流程。虚拟现实（VR）与增强现实（AR）：创建虚拟场景和对象，提升沉浸感。工业设计与产品开发：基于文本或图像快速生成和编辑 3D 设计原型。文化遗产与建筑可视化：实现 3D 重建和修复，用在数字化保护和展示。机器人与 AI 训练：生成 3D 数据用于机器人视觉和 AI 模型训练。