当前位置: 网站首页 >AI教程资讯 >正文

Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合

来源:爱论文 时间:2025-01-13 16:35:12

Ingredients是什么

Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。基于精心设计的多阶段训练协议,Ingredients能在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。

Ingredients

Ingredients的主要功能

保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

Ingredients的技术原理

面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

Ingredients的项目地址

GitHub仓库:https://github.com/feizc/IngredientsHuggingFace模型库:https://huggingface.co/feizhengcong/IngredientsarXiv技术论文:https://arxiv.org/pdf/2501.01790

Ingredients的应用场景

娱乐创作:为虚拟偶像制作一段多场景的音乐视频,保持其面部特征和风格一致,增强粉丝互动。广告行业:为时尚品牌定制不同风格的广告,展示目标受众在校园、街头等场景下的时尚造型,提高品牌吸引力。教育教学:在语言学习应用中,创建国际会议场景视频,学习者观看不同国家代表的交流,学习商务英语和跨文化沟通。社交媒体:用户制作家族历史视频,结合老照片和口述故事,展现家族成员在不同年代的生活场景,分享在社交媒体上引发共鸣。虚拟现实:在虚拟现实旅游应用中,生成用户与虚拟导游在景点游览的视频,导游详细介绍景点历史和文化,增强旅游体验的真实感。
上一篇:MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
相关资讯 更多+
  • Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
    Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合

    Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。

    AI教程资讯 2023-04-14

  • MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
    MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

    MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。

    AI教程资讯 2023-04-14

  • Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
    Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

    Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。

    AI教程资讯 2023-04-14

  • TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
    TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

    TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar基于扩散变换器(DiT)架构,基于引入alpha特定的token和基于LoRA的微调,实现RGB和alpha通道的联合生成,保持高度一致性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定