Add-it – 英伟达推出无需训练的图像编辑技术-爱论文

Add-it是什么

Add-it是NVIDIA推出的无需训练的图像编辑技术，能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制，整合场景图像、文本提示和生成图像的信息，实现结构一致性和自然的对象放置。Add-it在真实和生成图像的插入基准测试中表现优异，优于监督学习方法，且在超过80%的情况下更受人类偏好。

Add-it的主要功能

对象插入：根据文本指令在图像中无缝插入新对象。结构保持：在添加新对象的同时保持原始场景的结构一致性。自然融合：确保新对象与现有场景自然融合，看起来协调。无需训练：不需要针对特定任务的微调或训练。性能优越：在多个基准测试中取得了最先进的结果，包括新构建的“Additing Affordance Benchmark”。逐步生成：能逐步生成图像，最终图像更好地适应用户在每一步的偏好。非真实感图像处理：能处理非真实感（如卡通或艺术风格）的源图像。

Add-it的技术原理

结构转移：将源图像的结构注入目标图像，保持场景的一致性。扩展自注意力块：扩展自注意力机制，让目标图像能从文本提示和源图像中提取关键信息，每个源分别加权，实现更精准的对象放置。主题引导潜在混合：用主题引导的潜在混合技术保留源图像的精细细节，如纹理和阴影，确保新对象与场景的自然融合。加权扩展注意力机制：基于加权机制，确保在整合信息时，不同来源的信息得到适当的重视，实现更自然的对象放置。无需额外训练：用预训练的扩散模型，无需额外的训练步骤，实现高质量的图像编辑。

Add-it的项目地址

项目官网：research.nvidia.com/labs/par/additGitHub仓库：https://github.com/NVlabs/additarXiv技术论文：https://arxiv.org/pdf/2411.07232

Add-it的应用场景

广告和营销：在广告图像中添加产品或品牌元素，创建更具吸引力的广告材料。内容创作：艺术家和设计师快速将想象中的对象或场景融入到现有的艺术作品中。电影和游戏制作：在电影或游戏的背景中添加虚拟角色或物体，增强视觉效果。新闻媒体：在新闻报道中，添加或替换图像中的特定元素。社交媒体：用户在社交媒体上分享的图片中添加文本描述的对象，增加互动性和趣味性。