Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型-爱论文

Inf-DiT是什么

Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法，能生成超高分辨率图像。Inf-DiT引入单向块注意力机制（UniBA），将生成过程中的空间复杂度从 O(N^2) 降低到 O(N)，有效解决传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 用扩散变换器（DiT）结构，能处理各种形状和分辨率的图像上采样任务。Inf-DiT设计多种技术增强图像的局部和全局一致性，如用全局图像嵌入和邻近低分辨率块的交叉注意力机制，进一步提升生成图像的质量和一致性。实验结果表明，Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。

Inf-DiT的主要功能

超高分辨率图像生成：生成超高分辨率的图像，突破传统扩散模型在高分辨率图像生成中的内存限制，适用于需要精细细节和丰富纹理的复杂设计、广告、海报和壁纸等实际应用场景。灵活的图像上采样：处理各种形状和分辨率的图像上采样任务，为不同需求的图像质量提升提供了强大的技术支持。局部和全局一致性增强：设计多种技术，如全局图像嵌入和邻近低分辨率块的交叉注意力机制，有效增强生成图像的局部和全局一致性，确保生成的图像在细节和整体结构上均符合预期。零样本文本控制能力：具备零样本文本控制能力，根据给定的文本提示对生成的图像进行引导和调整，增加生成图像的多样性和可控性。

Inf-DiT的技术原理

单向块注意力机制（UniBA）：将图像分割成多个块，在每个扩散步骤中对这些块进行顺序批量生成，每个批次同时生成一部分块，且只要内存允许，能并行生成任意数量的块。该机制让生成过程中的空间复杂度从 O(N^2) 降低到 O(N)，有效减少内存消耗，提高可生成图像的最大分辨率。扩散变换器（DiT）结构：Inf-DiT 基于扩散变换器结构作为其基础架构，用 Vision Transformer（ViT）的优势，将注意力机制作为图像块之间交互的主要方式，便于实现单向块注意力机制，提高模型的性能和可扩展性。全局图像嵌入：为增强生成图像的全局语义一致性，Inf-DiT 基于预训练的 CLIP 模型从低分辨率图像中提取全局图像嵌入，将其添加到扩散变换器的时间嵌入中，让模型能直接从高层语义信息中学习。邻近低分辨率块的交叉注意力机制：在生成高分辨率图像时，为减少生成不连续图像的概率，Inf-DiT 在变换器的第一层引入邻近低分辨率块的交叉注意力机制，让每个块能对周围的 3×3 低分辨率块进行交叉注意力操作，更好地捕捉邻近低分辨率信息，增强局部一致性。

Inf-DiT的项目地址

GitHub仓库：https://github.com/THUDM/Inf-DiTarXiv技术论文：https://arxiv.org/pdf/2405.04312

Inf-DiT的应用场景

设计与创意领域：生成高分辨率的建筑效果图，展示建筑细节和整体布局，帮助客户和设计师更好地理解设计方案。娱乐与媒体产业：提升影视画面的分辨率和清晰度，增强视觉效果，满足不同播放媒介的需求。印刷与出版行业：将低分辨率的书籍插图和封面图像上采样到适合印刷的高分辨率，确保印刷质量。科技与研究领域：提高医学影像的分辨率，帮助医生更准确地诊断和分析病情。