GAS – 卡内基梅隆联合上海 AI Lab 等推出的单图生成3D人体框架-爱论文

GAS是什么

GAS（Generative Avatar Synthesis from a Single Image）是卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研究人员提出的从单张图像生成高质量、视角一致且时间连贯虚拟形象的框架。GAS的核心在于结合了回归型3D人体重建模型和扩散模型的优势。基于3D人体重建模型从单张图像生成中间视角或姿态，将其作为条件输入视频扩散模型，实现高质量的视角一致性和时间连贯性。框架引入了“模式切换器”，用于区分视角合成和姿态合成任务，进一步提升生成效果。

GAS的主要功能

视角一致的多视角合成：从单张图像生成高质量的多视角渲染，确保不同视角下的外观和结构一致性。时间连贯的动态姿态动画：通过给定的姿态序列，生成流畅且真实的非刚性形变动画，实现动态姿态的连贯性。统一框架与泛化能力：将视角合成和姿态合成任务统一，通过共享模型参数和利用大规模真实数据（如网络视频）进行训练，提升模型对真实场景的泛化能力。密集外观提示：基于3D重建模型生成的密集信息作为条件输入，确保生成结果在外观和结构上的高保真度。

GAS的技术原理

3D人体重建与密集条件信号：GAS首先基于回归型3D人体重建模型（如单视角通用人类NeRF）从输入图像生成中间的视角或姿态。通过将输入图像映射到规范空间并重新定位，生成密集的外观提示。这些密集信息作为条件输入，为后续的扩散模型提供了丰富的细节和结构信息，确保生成结果的高质量和一致性。视频扩散模型与统一框架：生成的中间视角或姿态被用作视频扩散模型的条件输入，通过扩散模型生成高质量的视角一致性和时间连贯性动画。GAS提出了统一框架，将视角合成和姿态合成任务合并，共享模型参数，实现从姿态合成到视角合成的自然泛化。模式切换器：为了区分视角合成和姿态合成任务，GAS引入了模式切换器模块。模块支持网络在生成视角时专注于一致性，在生成姿态时专注于真实感变形。真实世界数据的泛化能力：GAS通过结合大规模真实世界视频（如网络视频）进行训练，显著提升了对真实场景的泛化能力。数据来源的多样性使得模型能够适应各种光照、服装和动作条件。训练与推理：GAS的训练分为两个阶段：首先训练3D人体重建模型，然后冻结该模型并训练视频扩散模型。推理时，根据任务性质（视角合成或姿态合成）采用不同的分类器自由引导（CFG）策略。

GAS的项目地址

项目官网：https://humansensinglab.github.io/GAS/arXiv技术论文：https://arxiv.org/pdf/2502.06957

GAS的应用场景

游戏和虚拟现实（VR）：GAS可以从单张图像生成高质量的虚拟形象，支持多视角和动态姿态的连贯合成。影视制作：在影视特效和动画制作中，GAS能快速生成逼真的虚拟角色，减少传统建模和动画制作的时间和成本。体育和健身：通过从单张图像生成动态虚拟形象，GAS可用于创建个性化的运动动画，帮助运动员分析动作或用于健身应用中。时尚和服装设计：GAS能生成不同姿态和视角的虚拟形象，帮助设计师快速预览服装效果，提升设计效率。