当前位置: 网站首页 >AI教程资讯 >正文

BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复

来源:爱论文 时间:2025-01-23 14:51:42

BrushEdit是什么

BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图像修复模型,实现基于指令引导的图像编辑和修复,支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作。BrushEdit能处理添加、移除物体等大幅度修改,同时保持背景的连贯性和编辑效果的自然性,显著提升图像编辑的灵活性和用户体验。

BrushEdit

BrushEdit的主要功能

指令引导的图像编辑:用户用自然语言指令指导图像编辑任务,如添加、删除或修改图像中的物体。多轮交互式编辑:支持用户在编辑过程中进行多轮交互,逐步调整和完善编辑结果。自由形式掩码编辑:用户自由绘制掩码指定编辑区域,无需精确的分割工具。背景和前景处理:框架能区分编辑区域(前景)和非编辑区域(背景),确保编辑操作不影响图像的非目标部分。图像修复:自动填充和修复图像中的缺失或指定区域,如去除不需要的物体或填补空洞。

BrushEdit的技术原理

多模态大型语言模型(MLLMs):用预训练的MLLMs解析用户的自由形式编辑指令,识别编辑类型和目标对象。双分支图像修复模型:框架用双分支架构,一个分支负责处理掩码区域的图像生成,另一个分支处理未掩码区域的背景信息。代理协作框架:基于代理(代理指导者和代理指挥者)之间的协作,实现编辑类别分类、主要对象识别、掩码获取和编辑区域修复。特征融合:将用户指令和掩码信息融合到图像修复模型中,指导模型在掩码区域内生成与指令相符的内容。零卷积层和特征插入:用零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,减轻早期训练阶段的噪声,逐层集成特征实现精细的控制。混合微调策略:结合随机掩码和分割掩码的微调策略,让模型处理多种掩码任务,不受特定掩码类型限制。

BrushEdit的项目地址

项目官网:liyaowei-stu.github.io/project/BrushEditGitHub仓库:https://github.com/TencentARC/BrushEditHuggingFace模型库:https://huggingface.co/TencentARC/BrushEditarXiv技术论文:https://arxiv.org/pdf/2412.10316

BrushEdit的应用场景

内容创作与编辑:艺术家和设计师进行创意图像编辑,快速实现复杂的视觉效果和艺术创作。媒体和娱乐:在电影和视频制作中,修复老旧或损坏的影像资料,或在后期制作中移除不需要的元素。广告和营销:广告制作人快速更改广告图像中的产品或背景,适应不同的营销策略。社交媒体:用户在社交媒体上分享编辑过的图片,如节日装饰、虚拟试穿服装等。电子商务:电商平台编辑产品图片,如更换产品背景、调整产品颜色或添加促销标签。
上一篇:Bocha Semantic Reranker – 博查推出的语义排序模型
相关资讯 更多+
  • BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复
    BrushEdit – 腾讯和北大等联合推出的图像编辑框架,指令引导图像编辑和修复

    BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型(MLLMs)和双分支图像修复模型,实现基于指令引导的图像编辑和修复,支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作。

    AI教程资讯 2023-04-14

  • Bocha Semantic Reranker – 博查推出的语义排序模型
    Bocha Semantic Reranker – 博查推出的语义排序模型

    Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义,对初步排序的搜索结果进行二次优化,用评估查询语句与文档内容的深层语义匹配,给出排序得分,改善用户搜索体验。

    AI教程资讯 2023-04-14

  • Ruyi – 图森未来推出的图生视频大模型
    Ruyi – 图森未来推出的图生视频大模型

    Ruyi是图森未来科技有限公司推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。

    AI教程资讯 2023-04-14

  • Large Action Models – 微软推出的行动大模型开发框架
    Large Action Models – 微软推出的行动大模型开发框架

    Large Action Models(LAMs)是微软推出大型行动模型的开发框架,能执行真实世界行动的智能系统,LAMs超越传统LLMs(Large Language Models,大型语言模型)的文本生成能力。LAMs能理解用户意图,在物理和数字环境中自动执行复杂任务。

    AI教程资讯 2023-04-14

最新录入 更多+
确定