当前位置: 网站首页 >AI教程资讯 >正文

D-Edit – 基于图像、文本、掩码的多功能图像编辑框架

来源:爱论文 时间:2025-02-13 12:34:02

D-Edit是什么

D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像的编辑、基于文本的编辑、基于掩码的编辑及项目移除等多种编辑任务。D-Edit将图像分割成多个项目,为每个项目关联一个独特的提示,实现对项目的解耦控制。用户基于修改提示、掩码或项目与提示之间的关联来实现多样化的编辑效果。D-Edit是首个能基于掩码编辑实现项目编辑,能结合图像和文本编辑的框架。

D-Edit

D-Edit的主要功能

基于文本的编辑:用户改变与特定项目关联的文本提示替换或编辑图像中的项目。基于图像的编辑:支持用户用参考图像中的项目替换目标图像中的项目。基于掩码的编辑:用户能编辑图像中特定项目的掩码,包括移动、调整大小、改变形状等,改变项目的外观。项目移除:基于删除与项目相关的掩码和提示对,从图像中移除特定项目,让周围区域自然填补空白。多功能图像编辑:在统一的框架内实现上述编辑功能,提供灵活且多样化的图像编辑能力。

D-Edit的技术原理

项目提示交互:D-Edit将图像分解为多个项目,为每个项目分配一个独特的提示,提示在预训练的扩散模型中被特别学习控制特定项目。解耦的交叉注意力层:D-Edit引入解耦的交叉注意力机制,支持模型将每个项目的控制流与对应的提示分开处理,实现精确的项目级编辑。两步优化过程:提示注入:将代表每个项目的新的标记(tokens)注入到文本编码器的词汇表中,随机初始化标记的嵌入。模型微调:优化文本编码器的嵌入矩阵和UNet模型的权重建立项目与提示之间的关联,让模型能用给定的项目提示重建原始图像。编辑操作的自由度:在建立项目与提示的关联之后,D-Edit支持改变提示、掩码或项目与提示之间的映射实现各种编辑操作。灵活性和控制力:D-Edit的设计提供在编辑过程中对特定项目进行精确控制的能力,且保持对整体图像的自然和谐感。基于调整提示和掩码,用户能实现从细微调整到完全替换的各种编辑效果。

D-Edit的项目地址

GitHub仓库:https://github.com/collovlabs/d-editarXiv技术论文:https://arxiv.org/pdf/2403.04880在线体验Demo:https://huggingface.co/spaces/Collov-Labs/d-edit

D-Edit的应用场景

数字艺术创作:艺术家和设计师创作新的数字艺术作品,用编辑图像中的特定元素实现独特的视觉效果。照片编辑:普通用户对个人照片进行编辑,比如更换背景、调整人物姿势、改变服装样式等。广告和营销:营销人员更改广告图像中的特定元素,如产品、标志或文本,适应不同的营销活动。时尚和服装:时尚设计师展示服装设计的不同版本,基于改变服装的颜色、纹理或款式探索不同的设计可能性。建筑和城市规划:建筑师和城市规划者编辑建筑设计图像,调整建筑外观或城市规划布局。
上一篇:PromptFix – 微软开源的AI修图工具,通过提示词实现多种图像处理
相关资讯 更多+
  • D-Edit – 基于图像、文本、掩码的多功能图像编辑框架
    D-Edit – 基于图像、文本、掩码的多功能图像编辑框架

    D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像的编辑、基于文本的编辑、基于掩码的编辑及项目移除等多种编辑任务。

    AI教程资讯 2023-04-14

  • PromptFix – 微软开源的AI修图工具,通过提示词实现多种图像处理
    PromptFix – 微软开源的AI修图工具,通过提示词实现多种图像处理

    PromptFix是微软开发的开源AI图像修复工具,基于扩散模型技术,能根据用户指令处理损坏的图片,移除不需要的元素。PromptFix支持多种图像处理任务,包括上色、物体移除、去雾、去模糊、去除水印、清除雪迹和增强低光照图像。

    AI教程资讯 2023-04-14

  • Red_Panda – Recraft推出的AI图像生成模型
    Red_Panda – Recraft推出的AI图像生成模型

    Red_Panda 是 Recraft V3 在发布初期使用的化名,是Recraft AI推出的先进AI图像生成模型,以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-Image Benchmark中以1172的ELO评分领先,超越Midjourney和OpenAI等竞争对手。

    AI教程资讯 2023-04-14

  • Show-o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型
    Show-o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

    Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能,能减少图像生成所需的采样步骤,提高效率。

    AI教程资讯 2023-04-14

最新录入 更多+
确定