当前位置: 网站首页 >AI教程资讯 >正文

SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术

来源:爱论文 时间:2025-03-28 09:57:01

SmartEraser是什么

SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区域引导”(Masked-Region Guidance)范式,与传统的“掩码和修复”(mask-and-inpaint)方法不同,SmartEraser保留掩码区域作为移除过程的引导,能更准确地识别和移除目标对象,同时有效保留周围上下文。SmartEraser基于Syn4Removal大规模高质量数据集进行训练,引入掩码增强技术和基于CLIP的视觉引导,SmartEraser在对象移除任务中展现出卓越的性能。

SmartEraser

SmartEraser的主要功能

目标对象识别与移除:准确识别用户基于掩码指定的目标对象,将其从图像中移除。上下文保留:在移除目标对象的同时,保留周围环境的细节和结构,确保图像的视觉连贯性。高质量图像生成:生成的图像在视觉上与原始图像保持一致,没有明显的失真或 artifacts。鲁棒性:对用户提供的不同形状和大小的掩码具有较高的鲁棒性,适应各种输入条件。适用于复杂场景:在复杂的场景中,如包含多个对象和复杂背景的图像中,有效地移除目标对象。

SmartEraser的技术原理

掩码区域引导范式:保留掩码区域:与传统的“掩码和修复”方法不同,SmartEraser保留掩码区域在输入中的位置,将其作为移除过程的引导。模型能准确识别需要移除的对象,减少在掩码区域重新生成对象的风险。上下文信息:用户定义的掩码通常会超出目标对象本身,有助于模型在最终结果中保留周围上下文,使生成的图像更加自然和真实。Syn4Removal数据集:合成数据生成:训练符合新范式的模型,用合成方法构建训练数据。该方法涉及将不同图像中的对象实例粘贴到不同的背景图像上,形成输入图像。粘贴对象的掩码作为输入掩码,原始背景图像作为真实值。大规模数据集:Syn4Removal数据集包含100万对图像三元组,涵盖多样的场景和对象类型,为模型训练提供丰富的数据支持。基于文本到图像扩散模型的框架:掩码增强:为增强模型对用户输入不同掩码形状的鲁棒性,在训练过程中应用多种掩码变形方法,模拟用户输入掩码的形状。这些方法包括原始掩码、腐蚀掩码、膨胀掩码、凸包掩码、椭圆掩码和边界框与贝塞尔曲线掩码。基于CLIP的视觉引导:用预训练的CLIP模型提取移除目标的视觉特征,映射到文本编码器的特征空间中。损失函数:模型的训练损失函数基于标准的扩散过程,最小化预测噪声和实际噪声之间的差异优化模型参数。

SmartEraser的项目地址

项目官网:https://longtaojiang.github.io/smarteraserGitHub仓库:https://github.com/longtaojiang/SmartEraserarXiv技术论文:https://arxiv.org/pdf/2501.08279

SmartEraser的应用场景

个人照片编辑:用在移除旅游照片中的路人、家庭照片中的不希望出现的人物或物体,及清理证件照和社交媒体头像的背景。专业图像处理:在广告和营销中,移除产品摄影中的干扰元素,优化广告设计的背景。 平面设计:协助平面设计师在海报和封面设计中突出焦点,移除不必要的背景元素。 文物修复:在文物修复中,如古画修复,移除污渍和破损。医疗和科研:在医学影像处理中,如X光和CT图像,移除设备伪影和标记;在科研图像处理中,如显微镜和卫星图像,清理背景噪声和干扰,提高图像分析价值。
上一篇:Zerox – 开源的OCR工具,零样本识别多种格式文件
相关资讯 更多+
  • SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术
    SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术

    SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区域引导”(Masked-Region Guidance)范式,与传统的“掩码和修复”(mask-and-inpaint)方法不同,SmartEraser保留掩码区域作为移除过程的引导,能更准确地识别和移除目标对象,同时有效保留周围上下文。

    AI教程资讯 2023-04-14

  • Zerox – 开源的OCR工具,零样本识别多种格式文件
    Zerox – 开源的OCR工具,零样本识别多种格式文件

    Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描版文档及复杂布局文件,如含表格、图表等。Zerox工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。

    AI教程资讯 2023-04-14

  • Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力
    Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力

    Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测试时进行优化。模型基于Diffusion Transformer模块,通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。

    AI教程资讯 2023-04-14

  • PSHuman – 开源的单图像3D人像重建技术,仅需一张照片
    PSHuman – 开源的单图像3D人像重建技术,仅需一张照片

    PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态。核心优势在于能同时建模全局形状和局部细节的联合概率分布,避免几何失真,还能保持不同视图下身体形状的一致性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定