CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术-爱论文

CreatiLayout是什么

CreatiLayout 是复旦大学和字节跳动联合提出的创新的布局到图像生成（Layout-to-Image, L2I）技术。通过构建大规模的布局数据集 LayoutSAM，包含 270 万图像-文本对和 1070 万个实体标注，每个实体都详细描述了颜色、形状、纹理等属性。CreatiLayout 的核心在于其 SiamLayout 框架，框架将布局信息视为一种独立的模态，通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互，有效解决了模态竞争问题。此外，CreatiLayout 还引入了 LayoutDesigner，基于大语言模型帮助用户生成和优化布局，支持多种输入方式，如中心点、掩码、草图和文本描述等。

CreatiLayout的主要功能

高质量图像生成：基于孪生多模态扩散变换器（Siamese Multimodal Diffusion Transformer），CreatiLayout 能生成高质量和细粒度可控的图像。能精确渲染复杂的属性，如颜色、纹理、形状等。布局生成与优化：通过 LayoutDesigner，CreatiLayout 可以根据用户的多种输入（如中心点、掩码、草图、文本描述等）生成和优化布局。使用户能更灵活地表达设计意图，生成和谐美观的布局。大规模数据集支持：CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集，包含 270 万图像-文本对和 1070 万个实体标注。每个实体都详细描述了颜色、形状、纹理等属性，为模型提供了丰富的数据支持。多模态交互：在模型架构上，CreatiLayout 将布局信息视为一种独立的模态，通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout的技术原理

孪生多模态扩散变换器：CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成。能有效地处理多模态数据，包括图像、文本和布局信息。SiamLayout 框架：框架将布局信息视为一种独立的模态，并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互，缓解了模态竞争问题，增强了布局的指导作用。具体来说，图像、文本、布局这三个模态的交互被解耦为两个孪生的分支：图像-文本交互分支与图像-布局交互分支，使文本与布局对图像内容的指导各司其职、互不干扰。LayoutDesigner：基于大型语言模型进行布局规划和优化，支持用户通过多种输入形式（如中心点、掩码、草图、文本描述等）生成和优化布局。

CreatiLayout的项目地址

项目官网：https://creatilayout.github.ioGithub仓库：https://github.com/HuiZhang0812/CreatiLayoutarXiv技术论文：https://arxiv.org/pdf/2412.03859在线体验Demo：https://huggingface.co/spaces/HuiZhang0812/CreatiLayout

CreatiLayout的应用场景

宣传海报制作：设计师可以用 CreatiLayout 快速生成符合预期的高质量宣传海报。家具摆放优化：CreatiLayout 能精确解析每个家具的位置和尺寸，生成逼真的室内效果图。视觉效果创作：可以帮助开发者探索新的视觉效果和风格，通过精确控制布局和图像细节，创造出更具创意和吸引力的游戏画面。教学材料制作：教师可以用 CreatiLayout 将知识点以图文并茂的形式呈现出来。

CreatiLayout &#8211; 复旦和字节联合推出创新的布局到图像生成技术

CreatiLayout是什么

CreatiLayout的主要功能

CreatiLayout的技术原理

CreatiLayout的项目地址

CreatiLayout的应用场景

CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术