DiffSplat – 北大联合字节推出的 3D 生成框架-爱论文

DiffSplat是什么

DiffSplat是新型的 3D 生成方法，从文本提示和单视图图像快速生成 3D 高斯点阵（Gaussian Splats）。通过微调预训练的文本到图像扩散模型，基于强大的 2D 先验知识，引入 3D 渲染损失来确保生成的 3D 内容在多视图下保持一致性。DiffSplat 的核心优势在于其高效性和灵活性，能在 1~2 秒内生成高质量的 3D 对象，支持文本条件、图像条件或两者的组合输入。轻量级的重建模型用于构建结构化的高斯表示，为训练提供了高质量的数据支持。

DiffSplat的主要功能

从文本或图像生成 3D 高斯点阵：DiffSplat 能直接从文本提示或单视图图像生成 3D 高斯点阵（Gaussian Splats），保持 3D 一致性。高效利用 2D 先验知识：通过微调大规模文本到图像扩散模型，DiffSplat 有效基于网络规模的 2D 先验知识，同时引入 3D 渲染损失确保生成内容在任意视图下的 3D 一致性。支持多种条件输入：DiffSplat 支持文本条件、图像条件或两者的组合输入，用户可以根据需要选择合适的条件。可控生成能力：DiffSplat 可以与 ControlNet 等技术结合，实现基于文本提示和多种格式（如法线图、深度图、Canny 边缘图）的可控 3D 生成。

DiffSplat的技术原理

基于大规模预训练的文本到图像扩散模型：DiffSplat 通过微调这些模型，直接生成 3D 高斯点阵（Gaussian Splats），有效基于网络规模的 2D 先验知识。轻量级重建模型：为了启动训练，DiffSplat 提出轻量级的重建模型，能快速生成多视图高斯点阵网格，用于可扩展的数据集构建。3D 渲染损失：DiffSplat 引入了 3D 渲染损失，确保生成的 3D 内容在任意视图下都能保持一致性。

DiffSplat的项目地址

项目官网：https://chenguolin.github.io/projects/DiffSplat/GitHub仓库：https://github.com/chenguolin/DiffSplatarXiv技术论文：https://arxiv.org/pdf/2501.16764

DiffSplat的应用场景

3D 内容创作：适用于快速原型设计和内容创作。设计师可以用 DiffSplat 快速生成 3D 模型的初步版本，用于概念验证或进一步的精细调整。文本到 3D 生成：DiffSplat 在文本条件下的 3D 生成任务中表现出色，能根据详细的文本描述生成与之匹配的 3D 模型。图像到 3D 重建：DiffSplat 支持从单张图像生成 3D 模型，能准确反映输入图像的形状和纹理。从现有图像资源中快速生成 3D 模型，例如在影视特效、游戏开发等领域。下游应用支持：DiffSplat 的生成结果可以直接用于多种下游应用，如 3D 打印、虚拟现实（VR）和增强现实（AR）等领域。