EliGen – 浙大联合阿里推出的新型实体级可控图像生成框架-爱论文

EliGen是什么

EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架，通过引入区域注意力机制，无需额外参数即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。EliGen包含50万高质量注释样本的数据集，用于训练模型以实现鲁棒且准确的实体级操控。EliGen 提出了修复融合管道，能扩展到多实体图像修复任务。

EliGen的主要功能

实体级精确控制：通过区域注意力机制，EliGen 能对图像中的每个实体进行精确控制，包括实体的位置、形状和语义属性。多实体图像修复：EliGen 提出修复融合管道，能实现多实体图像修复任务，通过区域注意力机制，可以在单次前向传递中对多个实体进行修复。风格化实体控制：结合 IP-Adapter，EliGen 可以根据参考图像的风格生成目标图像，实现风格化的实体控制。交互式图像设计与编辑：通过与 MLLM（多模态语言模型）集成，EliGen 可以基于对话进行图像设计和编辑，用户可以通过文本描述生成或修改图像。与社区模型集成：EliGen 可以与 IP-Adapter、In-Context LoRA 和 MLLM 等开源模型无缝集成，解锁新的创意可能性。可以实现风格化实体控制、实体转移以及基于对话的图像设计与编辑。强大的泛化能力：EliGen 在不同随机种子、连续变化的实体位置以及不合理的位置输入下，均能保持良好的泛化能力，生成高质量且符合要求的图像。

EliGen的技术原理

区域注意力机制：EliGen 引入区域注意力机制，机制扩展了扩散变换器（DiT）的注意力模块，能处理任意形状的实体掩码。EliGen 将全局提示和局部提示嵌入结合，形成扩展提示序列，基于空间条件构建联合注意力掩码（包括实体-潜在、实体间和实体内掩码）。无需额外参数，可在训练前实现对实体细节的修改。高质量数据集构建：为了训练 EliGen，研究者构建了包含50万个高质量注释样本的数据集。样本通过 Flux 生成图像，基于 Qwen2-VL 视觉语言模型进行全局提示和实体信息的标注。高质量的数据集确保了模型在实体级操控方面的鲁棒性和准确性。训练与微调：EliGen 采用 LoRA（低秩适应）方法进行高效微调，确保模型快速收敛。LoRA 权重被应用于 DiT 的每个块的线性层，包括注意力层的投影层和自适应 LayerNorm 内的线性层。修复融合管道：EliGen 提出了修复融合管道，用于多实体图像修复任务。管道通过基于区域的噪声融合操作，使 EliGen 能在单次前向传递中对多个实体进行修复，同时保持非修复区域的质量。

EliGen的项目地址

arXiv技术论文：https://arxiv.org/pdf/2501.01097

EliGen的应用场景

虚拟场景生成：EliGen 能生成高质量的虚拟场景，支持任意形状掩码的实体控制，适用于虚拟现实和游戏开发中的场景设计。角色与道具设计：用户可以精确控制角色和道具的位置、形状和风格，为虚拟世界中的角色和道具设计提供强大的工具。大规模定制数据合成：EliGen 的任意形状掩码控制能力使其能够高效生成大规模定制化的数据，适用于数据增强和机器学习任务。产品展示与宣传：EliGen 可以生成高质量的产品展示图像，支持精确的实体控制和风格化设计，满足广告和产品设计的需求。