当前位置: 网站首页 >AI教程资讯 >正文

ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型

来源:爱论文 时间:2025-01-29 15:00:32

ConsisID是什么

ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tuning-free)的Diffusion Transformer(DiT)架构,结合低频全局特征和高频内在特征,用分层训练策略生成高质量、可编辑且身份一致性强的视频。ConsisID在多个评估维度上超越现有技术,推动了身份一致性视频生成技术的发展。

ConsisID

ConsisID的主要功能

身份保持:在视频生成过程中保持人物身份的一致性,确保视频中的人物特征与提供的参考图像相匹配。高质量视频生成:生成视觉上逼真、细节丰富的视频内容。无需微调:作为免调优(tuning-free)模型,不需要针对每个新案例进行微调,降低了使用门槛。可编辑性:支持用户用文本提示控制视频内容,包括人物动作、表情和背景等。泛化能力:能处理训练数据领域之外的人物,提高模型的泛化能力。

ConsisID的技术原理

频率分解:低频控制:用全局人脸特征提取器,将参考图像和人脸关键点编码为低频特征,集成到网络的浅层,缓解训练难度。高频控制:设计局部人脸特征提取器,捕获高频细节注入到Transformer模块,增强模型对细粒度特征的保留能力。层次化训练策略:粗到细训练:先让模型学习全局信息,再细化到局部信息,保持视频在空间和时间维度上的一致性。动态掩码损失(Dynamic Mask Loss):用人脸mask约束损失函数的计算,让模型专注于人脸区域。动态跨脸损失(Dynamic Cross-Face Loss):引入跨面部的参考图像,提高模型对未见身份的泛化能力。特征融合:用人脸识别骨干网络和CLIP图像编码器提取特征,基于Q-Former融合特征,生成包含高频语义信息的内在身份特征。交叉注意力机制:基于交叉注意力机制,让模型能与预训练模型生成的视觉标记交互,有效增强DiT中的高频信息。

ConsisID的项目地址

项目官网:pku-yuangroup.github.io/ConsisIDGitHub仓库:https://github.com/PKU-YuanGroup/ConsisIDHuggingFace模型库:https://huggingface.co/datasets/BestWishYsh/ConsisIDarXiv技术论文:https://arxiv.org/pdf/2411.17440在线体验Demo:https://huggingface.co/spaces/BestWishYsh/ConsisID

ConsisID的应用场景

个性化娱乐:用户创建与自己或指定人物相似的虚拟形象,用在社交媒体平台或个人娱乐。虚拟主播:在新闻播报或网络直播中,用ConsisID生成的虚拟主播24小时不间断地工作。电影和电视制作:在电影后期制作中,用在生成特效场景中的角色,或创建全新的虚拟角色。游戏行业:为游戏角色设计提供原型,或在游戏中生成与玩家相似的非玩家角色(NPC)。教育和模拟训练:创建历史人物或模拟特定场景,用在教育目的或专业培训,如医疗模拟、驾驶训练等。
上一篇:Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯
相关资讯 更多+
  • ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型
    ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型

    ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tuning-free)的Diffusion Transformer(DiT)架构,结合低频全局特征和高频内在特征,用分层训练策略生成高质量、可编辑且身份一致性强的视频。

    AI教程资讯 2023-04-14

  • Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯
    Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯

    Perplexideez是本地AI助手,支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础,支持Ollama或OpenAI兼容的端点,用SearXNG实例进行网络搜索。Perplexideez具备多用户支持、单点登录(SSO)功能,并提供美观的搜索结果嵌入展示。

    AI教程资讯 2023-04-14

  • Aurora – xAI为Grok AI助手推出的新图像生成模型
    Aurora – xAI为Grok AI助手推出的新图像生成模型

    Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像,擅长人物肖像。Aurora能生成包括公共和版权人物在内的图像(如米老鼠)。Aurora 的可用性因用户等级而异,免费 xAI 用户每天能生成三张图像, xAI Premium 用户可享受无限制访问。

    AI教程资讯 2023-04-14

  • Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理
    Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理

    Micro LLAMA是精简的教学版LLAMA 3模型实现,能帮助学习者理解大型语言模型架构。整个项目仅约180行代码,便于理解和学习。Micro LLAMA用的是LLAMA 3中最小的8B参数模型,模型本身需15GB存储空间,运行时约需30GB内存。

    AI教程资讯 2023-04-14

最新录入 更多+
确定