当前位置: 网站首页 >AI教程资讯 >正文

Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型

来源:爱论文 时间:2025-01-15 15:55:38

Inf-DiT是什么

Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效解决传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 用扩散变换器(DiT)结构,能处理各种形状和分辨率的图像上采样任务。Inf-DiT设计多种技术增强图像的局部和全局一致性,如用全局图像嵌入和邻近低分辨率块的交叉注意力机制,进一步提升生成图像的质量和一致性。实验结果表明,Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。

Inf-DiT

Inf-DiT的主要功能

超高分辨率图像生成:生成超高分辨率的图像,突破传统扩散模型在高分辨率图像生成中的内存限制,适用于需要精细细节和丰富纹理的复杂设计、广告、海报和壁纸等实际应用场景。灵活的图像上采样:处理各种形状和分辨率的图像上采样任务,为不同需求的图像质量提升提供了强大的技术支持。局部和全局一致性增强:设计多种技术,如全局图像嵌入和邻近低分辨率块的交叉注意力机制,有效增强生成图像的局部和全局一致性,确保生成的图像在细节和整体结构上均符合预期。零样本文本控制能力:具备零样本文本控制能力,根据给定的文本提示对生成的图像进行引导和调整,增加生成图像的多样性和可控性。

Inf-DiT的技术原理

单向块注意力机制(UniBA):将图像分割成多个块,在每个扩散步骤中对这些块进行顺序批量生成,每个批次同时生成一部分块,且只要内存允许,能并行生成任意数量的块。该机制让生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效减少内存消耗,提高可生成图像的最大分辨率。扩散变换器(DiT)结构:Inf-DiT 基于扩散变换器结构作为其基础架构,用 Vision Transformer(ViT)的优势,将注意力机制作为图像块之间交互的主要方式,便于实现单向块注意力机制,提高模型的性能和可扩展性。全局图像嵌入:为增强生成图像的全局语义一致性,Inf-DiT 基于预训练的 CLIP 模型从低分辨率图像中提取全局图像嵌入,将其添加到扩散变换器的时间嵌入中,让模型能直接从高层语义信息中学习。邻近低分辨率块的交叉注意力机制:在生成高分辨率图像时,为减少生成不连续图像的概率,Inf-DiT 在变换器的第一层引入邻近低分辨率块的交叉注意力机制,让每个块能对周围的 3×3 低分辨率块进行交叉注意力操作,更好地捕捉邻近低分辨率信息,增强局部一致性。

Inf-DiT的项目地址

GitHub仓库:https://github.com/THUDM/Inf-DiTarXiv技术论文:https://arxiv.org/pdf/2405.04312

Inf-DiT的应用场景

设计与创意领域:生成高分辨率的建筑效果图,展示建筑细节和整体布局,帮助客户和设计师更好地理解设计方案。娱乐与媒体产业:提升影视画面的分辨率和清晰度,增强视觉效果,满足不同播放媒介的需求。印刷与出版行业:将低分辨率的书籍插图和封面图像上采样到适合印刷的高分辨率,确保印刷质量。科技与研究领域:提高医学影像的分辨率,帮助医生更准确地诊断和分析病情。
上一篇:ImBD – 复旦联合华南理工等机构推出的通用 AI 内容检测器
相关资讯 更多+
  • Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型
    Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型

    Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2) 降低到 O(N),有效解决传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 用扩散变换器(DiT)结构,能处理各种形状和分辨率的图像上采样任务。

    AI教程资讯 2023-04-14

  • ImBD – 复旦联合华南理工等机构推出的通用 AI 内容检测器
    ImBD – 复旦联合华南理工等机构推出的通用 AI 内容检测器

    ImBD(Imitate Before Detect)是复旦大学、华南理工大学、武汉大学、Fenzi AI等推出的用在检测机器修订文本的方法。首先模仿大型语言模型(LLMs)生成文本的风格,基于风格偏好优化(SPO)调整评分模型,让其更符合机器修订文本的特征。然后,利用风格条件概率曲率(Style-CPC)量化原始文本与条件概率采样生成文本之间的对数概率差异,有效区分人类写作和机器修订内容。

    AI教程资讯 2023-04-14

  • SocraticLM – 中科大和科大讯飞共同推出的苏格拉底教学大模型
    SocraticLM – 中科大和科大讯飞共同推出的苏格拉底教学大模型

    SocraticLM 是通过苏格拉底式的教学法来教授数学的创新人工智能模型,模型由中科大和科大讯飞共同开发,采用了“Thought-Provoking”教学范式,通过提问引导学生主动思考和解决问题。SocraticLM 在名为 SocraTeach 的数据集上进行了微调,该数据集包含 35,000 个精心设计的多轮教学对话,模拟了真实的教学场景。

    AI教程资讯 2023-04-14

  • VMix – 字节联合中科大推出增强模型生成美学质量的适配器
    VMix – 字节联合中科大推出增强模型生成美学质量的适配器

    VMix是创新的即插即用美学适配器,旨在提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述,将细粒度的美学标签(如色彩、光线、构图等)作为额外条件引入生成过程。

    AI教程资讯 2023-04-14

最新录入 更多+
确定