当前位置: 网站首页 >AI教程资讯 >正文

CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术

来源:爱论文 时间:2025-01-14 16:44:12

CreatiLayout是什么

CreatiLayout 是复旦大学和字节跳动联合提出的创新的布局到图像生成(Layout-to-Image, L2I)技术。通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。CreatiLayout 的核心在于其 SiamLayout 框架,框架将布局信息视为一种独立的模态,通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互,有效解决了模态竞争问题。此外,CreatiLayout 还引入了 LayoutDesigner,基于大语言模型帮助用户生成和优化布局,支持多种输入方式,如中心点、掩码、草图和文本描述等。

CreatiLayout的主要功能

高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能生成高质量和细粒度可控的图像。能精确渲染复杂的属性,如颜色、纹理、形状等。布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户的多种输入(如中心点、掩码、草图、文本描述等)生成和优化布局。使用户能更灵活地表达设计意图,生成和谐美观的布局。大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,包含 270 万图像-文本对和 1070 万个实体标注。每个实体都详细描述了颜色、形状、纹理等属性,为模型提供了丰富的数据支持。多模态交互:在模型架构上,CreatiLayout 将布局信息视为一种独立的模态,通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout的技术原理

孪生多模态扩散变换器:CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成。能有效地处理多模态数据,包括图像、文本和布局信息。SiamLayout 框架:框架将布局信息视为一种独立的模态,并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互,缓解了模态竞争问题,增强了布局的指导作用。具体来说,图像、文本、布局这三个模态的交互被解耦为两个孪生的分支:图像-文本交互分支与图像-布局交互分支,使文本与布局对图像内容的指导各司其职、互不干扰。LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

CreatiLayout的项目地址

项目官网:https://creatilayout.github.ioGithub仓库:https://github.com/HuiZhang0812/CreatiLayoutarXiv技术论文:https://arxiv.org/pdf/2412.03859在线体验Demo:https://huggingface.co/spaces/HuiZhang0812/CreatiLayout

CreatiLayout的应用场景

宣传海报制作:设计师可以用 CreatiLayout 快速生成符合预期的高质量宣传海报。家具摆放优化:CreatiLayout 能精确解析每个家具的位置和尺寸,生成逼真的室内效果图。视觉效果创作:可以帮助开发者探索新的视觉效果和风格,通过精确控制布局和图像细节,创造出更具创意和吸引力的游戏画面。教学材料制作:教师可以用 CreatiLayout 将知识点以图文并茂的形式呈现出来。
上一篇:RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架
相关资讯 更多+
  • CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术
    CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术

    CreatiLayout 是复旦大学和字节跳动联合提出的创新的布局到图像生成(Layout-to-Image, L2I)技术。通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

    AI教程资讯 2023-04-14

  • RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架
    RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架

    RealisHuman 是创新的后处理框架,旨在细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部位作为参考,生成逼真的人体部位,以确保与原图像的一致性。其次,通过重新绘制周围区域,将修正后的人体部位无缝地整合回原始位置,确保平滑和真实的融合。

    AI教程资讯 2023-04-14

  • Cosmos – 英伟达推出的生成式世界基础模型平台
    Cosmos – 英伟达推出的生成式世界基础模型平台

    Cosmos是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能(AI)系统的发展,特别是在自动驾驶和机器人领域。Cosmos能接受文本、图像或视频的提示,生成高度仿真的虚拟世界状态,为自动驾驶和机器人应用提供独特的视频输出。

    AI教程资讯 2023-04-14

  • 优云智算 – UCloud 旗下 GPU 算力租赁平台
    优云智算 – UCloud 旗下 GPU 算力租赁平台

    优云智算是UCloud优刻得旗下的GPU算力租赁平台,专注于为AI应用提供高效、灵活的算力资源。支持按需租赁,满足不同项目需求。平台拥有丰富的镜像社区,提供多种AI场景的容器镜像,如LLamaFactory和SD-webUI等,支持一键部署,快速启动AI应用。

    AI教程资讯 2023-04-14

最新录入 更多+
确定