当前位置: 网站首页 >AI教程资讯 >正文

One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术

来源:爱论文 时间:2025-01-28 17:47:01

One Shot, One Talk是什么

One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的身体动作。One Shot, One Talk是中国科学技术大学和香港理工大学的研究者推出的,结合姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示,实现对新姿势和表情的泛化,凭一张图片能创建出逼真、精确可动且富有表情的全身说话头像。

One Shot, One Talk

One Shot, One Talk的主要功能

单图像重建:从单张图片中重建出全身动态说话头像。逼真动画:支持包括身体动作和面部表情在内的逼真动画效果。个性化细节:捕捉并再现人物的个性化特征和细节。精确控制:提供对头像姿势和表情的精确控制。泛化能力:能泛化到新的姿势和表情,即使在训练中未见过。

One Shot, One Talk的技术原理

姿势引导的图像到视频扩散模型:基于模型生成不完美视频帧作为伪标签,实现对新姿势和表情的泛化。3DGS-mesh混合头像表示:结合3D高斯模型(3DGS)和参数化网格模型(如SMPL-X),增强头像的表达力和真实感。关键正则化技术:应用正则化技术减轻伪标签引起的不一致性,确保头像的结构和动态建模的准确性。伪标签生成:用TED Gesture Dataset等数据集驱动预训练模型,生成目标人物执行不同姿势和表情的视频序列。损失函数和约束:设计多个损失函数和约束项,包括感知损失(如LPIPS)和像素级损失,从输入图像和伪标签中有效提取信息,并稳定头像重建过程。优化和训练:用Adam优化器进行训练,基于精心设计的损失权重平衡不同损失函数,达到最优的头像重建效果。

One Shot, One Talk的项目地址

项目官网:xiangjun-xj.github.io/OneShotOneTalkarXiv技术论文:https://arxiv.org/pdf/2412.01106

One Sho, One Talk的应用场景

增强现实(AR)和虚拟现实(VR):在AR/VR应用中,创建逼真的虚拟角色,提升用户的沉浸感和交互体验。远程会议和远程呈现:基于生成逼真的全身动态头像,用在远程会议,让远程沟通更加自然和高效。游戏和娱乐:在游戏和电影制作中,快速生成或自定义角色,减少传统动作捕捉和建模的时间和成本。社交媒体和内容创作:用户创建个性化的虚拟形象,用在社交媒体平台或作为虚拟主播进行内容创作。教育和培训:在虚拟教学环境中,教师拥有逼真的虚拟形象,增强远程教学的效果。
上一篇:GLM-4V-Flash – 智谱 AI 推出的首个免费多模态模型API
相关资讯 更多+
  • One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术
    One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术

    One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的身体动作。One Shot, One Talk是中国科学技术大学和香港理工大学的研究者推出的。

    AI教程资讯 2023-04-14

  • GLM-4V-Flash – 智谱 AI 推出的首个免费多模态模型API
    GLM-4V-Flash – 智谱 AI 推出的首个免费多模态模型API

    GLM-4V-Flash 是智谱AI推出的首个免费多模态模型API,GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高级图像处理功能,并且支持包括中文、英语、日语、韩语、德语在内的26种语言。

    AI教程资讯 2023-04-14

  • clone-voice – 开源的声音克隆工具,支持16种语言
    clone-voice – 开源的声音克隆工具,支持16种语言

    Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言,能将文本转换为语音或将一种声音风格转换为另一种。用户界面友好,操作简单,不需要高性能的硬件支持,适合个人和专业领域使用。

    AI教程资讯 2023-04-14

  • SNOOPI – AI文本到图像生成框架,提升单步扩散模型的效率和性能
    SNOOPI – AI文本到图像生成框架,提升单步扩散模型的效率和性能

    SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 - SwiftBrush)和NASA(负向远离转向注意力)两种技术。PG-SB用随机尺度的无分类器引导方法,增强训练稳定性;NASA用交叉注意力机制整合负面提示,有效抑制生成图像中的不期望元素。

    AI教程资讯 2023-04-14

最新录入 更多+
确定