PromptFix – 微软开源的AI修图工具，通过提示词实现多种图像处理-爱论文

PromptFix是什么

PromptFix是微软推出的开源AI图像修复工具，基于扩散模型技术，能根据用户指令处理损坏的图片，移除不需要的元素。PromptFix支持多种图像处理任务，包括上色、物体移除、去雾、去模糊、去除水印、清除雪迹和增强低光照图像。PromptFix基于20步的去噪过程，有效纠正图像缺陷，且保持图像原有结构。PromptFix能适应不同长宽比的图像，具有很好的泛化能力。

PromptFix的主要功能

图像处理任务执行：PromptFix根据用户自定义的指令执行包括低级任务、图像编辑和对象创建在内的广泛图像处理任务。高频细节保护：基于高频引导采样方法，PromptFix在图像生成或编辑过程中保护高频细节，确保图像细节的精确保留。任务泛化能力提升：基于视觉语言模型（VLMs）辅助提示适配器，增强文本提示，提升模型在不同图像处理任务间的泛化能力。零样本学习能力：PromptFix展现出优越的零样本能力，尤其在盲恢复和组合任务中，无需额外训练即可处理未见过的任务。大规模数据集构建：构建大规模的指令遵循数据集，覆盖多种图像处理任务，为模型提供丰富的学习样本。

PromptFix的技术原理

扩散模型：扩散模型用逐步添加高斯噪声将数据转换为噪声，从噪声中重建数据。PromptFix基于这一原理，用预测噪声模式逐步还原清晰的图像。高频引导采样（High-frequency Guidance Sampling）：为保持图像中的高频细节，PromptFix引入高频引导采样方法。用低通滤波器和VAE跳跃连接特征计算保真度约束，确保在去噪过程中保留高频细节。辅助提示适配器（Auxiliary Prompting Adapter）：PromptFix设计辅助提示适配器，基于视觉语言模型（VLMs）增强文本提示，提供更丰富的语义信息，改善模型对复杂指令的理解和执行。数据集构建：构建大规模的指令遵循数据集，覆盖多种图像处理任务，包括低级任务、图像编辑和对象创建，为模型提供丰富的学习样本。跨模态学习：将视觉数据和语言指令结合起来，PromptFix实现跨模态学习，让模型能理解和执行与图像内容相关的复杂指令。优化和损失函数：在训练过程中，PromptFix采用特定的优化策略和损失函数，确保模型能有效地从噪声中恢复出高质量的图像，准确地执行用户的编辑指令。

PromptFix的项目地址

项目官网：yongshengyu.com/PromptFix-PageGitHub仓库：https://github.com/yeates/PromptFixHuggingFace模型库：https://huggingface.co/datasets/yeates/PromptfixDataarXiv技术论文：https://arxiv.org/pdf/2405.16785

PromptFix的应用场景

个人照片编辑：个人用户修复老照片、去除照片中的不想要的物体或人物，或者给黑白照片上色。专业摄影：摄影师增强图片细节，如在光线不足的情况下提高照片的亮度和清晰度，或者改变照片的风格和色调。数字艺术创作：艺术家创造新的艺术作品，比如将现实照片转换成油画或其他艺术风格。媒体和广告：在广告制作中，快速修改广告图像，适应不同的广告文案或品牌要求。电影和视频制作：在电影后期制作中，修复损坏的电影胶片，或者在不需要昂贵的现场拍摄的情况下创建特效场景。