当前位置: 网站首页 >AI教程资讯 >正文

MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

来源:爱论文 时间:2025-01-13 16:06:04

MultiBooth是什么

MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。在多概念整合阶段,用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。

MultiBooth

MultiBooth的主要功能

多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示具有高度的对齐性,确保图像内容与用户意图一致。高效推理:在多概念生成过程中,推理成本较低,不会随着概念数量的增加而显著增加推理时间,让多概念图像生成更加高效。插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型,提高模型的灵活性和可扩展性。

MultiBooth的技术原理

单概念学习阶段:多模态图像编码器:用QFormer编码器,输入图像和概念名称(如“dog”),基于自注意力层和交叉注意力层的交互,生成与文本对齐的定制化嵌入表示,为每个概念学习一个简洁且具有区分性的嵌入。自适应概念归一化(ACN):调整定制化嵌入的L2范数,与提示中的其他词嵌入具有可比性,解决嵌入空间中的域间差异问题,提高多概念生成的能力。高效概念编码技术:用LoRA技术对U-Net中的注意力层进行低秩分解,避免因微调U-Net导致的语言漂移,提高单概念学习的概念保真度,减少额外的参数存储需求。多概念整合阶段:区域定制化模块(RCM):在交叉注意力层中,根据用户定义或自动化过程得到的边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念,基于基础提示确保不同区域概念之间的交互,实现多个概念在同一图像中的准确融合。并行生成与交互:在RCM中,多个单概念模块能同时进行生成,基于交叉注意力机制实现概念之间的并行交互,避免概念融合和推理成本的增加。

MultiBooth的项目地址

项目官网:multibooth.github.ioGitHub仓库:https://github.com/chenyangzhu1/MultiBootharXiv技术论文:https://arxiv.org/pdf/2404.14239

MultiBooth的应用场景

娱乐与创意产业:为冒险游戏快速生成神秘古墓场景图,展示内部机关和壁画,丰富游戏探索元素。广告与营销:制作化妆品面膜广告海报,展示年轻女性使用后面部肌肤焕然一新,传达产品功效和品牌定位。教育与学习:生成中世纪城堡图像,清晰展示塔楼和城墙结构,帮助学生理解城堡特点,加深历史知识记忆。电子商务:为夏季连衣裙生成搭配图,展示碎花连衣裙搭配草编凉鞋和草帽的效果,吸引顾客购买。科研与工程:生成新型纳米材料结构示意图,展示其超轻重量和高强度特性,帮助公众理解科研成果创新性。
上一篇:Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
相关资讯 更多+
  • MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
    MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

    MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示。

    AI教程资讯 2023-04-14

  • Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
    Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

    Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。

    AI教程资讯 2023-04-14

  • TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
    TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

    TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar基于扩散变换器(DiT)架构,基于引入alpha特定的token和基于LoRA的微调,实现RGB和alpha通道的联合生成,保持高度一致性。

    AI教程资讯 2023-04-14

  • STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
    STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

    STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强视频的空间细节和时间建模能力。STAR引入局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定