One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术-爱论文

One Shot, One Talk是什么

One Shot, One Talk是先进的图像生成技术，能从单张图片中生成具有个性化细节的全身动态说话头像，支持逼真的动画效果，包括自然的表情变化和生动的身体动作。One Shot, One Talk是中国科学技术大学和香港理工大学的研究者推出的，结合姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示，实现对新姿势和表情的泛化，凭一张图片能创建出逼真、精确可动且富有表情的全身说话头像。

One Shot, One Talk的主要功能

单图像重建：从单张图片中重建出全身动态说话头像。逼真动画：支持包括身体动作和面部表情在内的逼真动画效果。个性化细节：捕捉并再现人物的个性化特征和细节。精确控制：提供对头像姿势和表情的精确控制。泛化能力：能泛化到新的姿势和表情，即使在训练中未见过。

One Shot, One Talk的技术原理

姿势引导的图像到视频扩散模型：基于模型生成不完美视频帧作为伪标签，实现对新姿势和表情的泛化。3DGS-mesh混合头像表示：结合3D高斯模型（3DGS）和参数化网格模型（如SMPL-X），增强头像的表达力和真实感。关键正则化技术：应用正则化技术减轻伪标签引起的不一致性，确保头像的结构和动态建模的准确性。伪标签生成：用TED Gesture Dataset等数据集驱动预训练模型，生成目标人物执行不同姿势和表情的视频序列。损失函数和约束：设计多个损失函数和约束项，包括感知损失（如LPIPS）和像素级损失，从输入图像和伪标签中有效提取信息，并稳定头像重建过程。优化和训练：用Adam优化器进行训练，基于精心设计的损失权重平衡不同损失函数，达到最优的头像重建效果。

One Shot, One Talk的项目地址

项目官网：xiangjun-xj.github.io/OneShotOneTalkarXiv技术论文：https://arxiv.org/pdf/2412.01106

One Sho, One Talk的应用场景

增强现实（AR）和虚拟现实（VR）：在AR/VR应用中，创建逼真的虚拟角色，提升用户的沉浸感和交互体验。远程会议和远程呈现：基于生成逼真的全身动态头像，用在远程会议，让远程沟通更加自然和高效。游戏和娱乐：在游戏和电影制作中，快速生成或自定义角色，减少传统动作捕捉和建模的时间和成本。社交媒体和内容创作：用户创建个性化的虚拟形象，用在社交媒体平台或作为虚拟主播进行内容创作。教育和培训：在虚拟教学环境中，教师拥有逼真的虚拟形象，增强远程教学的效果。