PartEdit – KAUST推出的细粒度图像编辑方法-爱论文

PartEdit是什么

PartEdit是KAUST推出基于预训练扩散模型的细粒度图像编辑方法。PartEdit基于优化特定的文本标记（称为“部分标记”），让扩散模型精准定位和编辑图像中对象的各个部分。这些部分标记学习与对象部分对应的非二进制掩码，在每个扩散步骤中实现对编辑区域的定位，结合特征混合与自适应阈值策略，无缝集成编辑内容，且保留未编辑区域。PartEdit无需重新训练模型，能实现高质量的编辑效果。PartEdit支持真实图像编辑和多部分同时编辑，为创作者提供强大的工具实现精准且富有创意的图像修改。

PartEdit的主要功能

精准定位与编辑对象部分：对图像中对象的各个部分（如头部、车身、引擎盖等）进行精准定位和编辑，实现用户指定的细粒度修改。无缝集成编辑内容：基于优化的非二进制掩码和自适应阈值策略，将编辑内容与原始图像无缝融合，避免编辑区域的突兀过渡。高质量视觉效果：生成的编辑图像具有高视觉质量，保留未编辑区域的原始细节，确保编辑部分与整体图像风格一致。支持多种编辑类型：实现语义编辑（如更换对象部分）和风格调整（如改变颜色、材质等），并能够生成传统方法难以实现的复杂概念。真实图像编辑：结合图像反转技术，对真实照片进行编辑，不仅限于合成图像。多部分同时编辑：支持在推理时同时编辑多个部分，无需重新训练模型，提高编辑效率。

PartEdit的技术原理

预训练扩散模型：基于预训练的扩散模型（如SDXL）的强大生成能力，逆向扩散过程生成图像。扩散模型基于逐步去除噪声生成图像，用文本提示引导生成过程。部分标记（Part Tokens）：优化特定的文本标记扩展模型对对象部分的理解。这些标记在扩散过程的每个步骤中生成可靠的非二进制掩码，用在定位编辑区域。优化过程：用二元交叉熵（BCE）损失函数，结合少量标注数据（如PASCAL-Part或PartImageNet），优化部分标记，在不同UNet块和时间步中生成与对象部分对应的注意力图。特征混合与自适应阈值策略：在扩散过程的每个时间步和UNet层，基于非二进制掩码将源图像特征与编辑图像特征进行混合。自适应阈值策略用于平滑编辑区域与未编辑区域的过渡，确保编辑的自然性。时间步选择：分析不同时间步的图像生成状态，选择中间时间步来优化大型部分的定位，对小型部分结合中间和后期时间步，实现最佳定位效果。真实图像反转：对于真实图像编辑，结合图像反转技术（如Ledits++或EF-DDPM）估计真实图像的扩散轨迹，作为源路径进行编辑。

PartEdit的项目地址

项目官网：https://partedit.github.io/PartEdit/arXiv技术论文：https://arxiv.org/pdf/2502.04050

PartEdit的应用场景

艺术创作与设计：帮助艺术家和设计师快速实现创意构思。影视与游戏制作：在影视和游戏的视觉效果制作中，快速修改角色外观或场景元素。广告设计：广告设计师快速生成产品广告的多种视觉效果。虚拟现实（VR）和增强现实（AR）：在VR和AR应用中，实时修改虚拟环境中的对象。教育行业：在教育领域，创建教学材料，帮助学生更好地理解复杂的概念。