LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法-爱论文

LongAlign是什么

LongAlign是香港大学研究团队推出的文本到图像（T2I）扩散模型的改进方法，能提升长文本输入的对齐精度。LongAlign用段级编码技术，将长文本分割处理，适应编码模型的输入限制。同时引入分解偏好优化，基于区分偏好模型中的文本相关和无关部分，应用不同权重减少过拟合，增强对齐度。经过20小时微调，LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能，超越PixArt-α和Kandinsky v2.2等先进模型。

LongAlign的主要功能

长文本处理：基于分段级编码方法，处理长文本输入，克服预训练编码模型如CLIP的最大输入长度限制。文本到图像对齐：提高生成图像与输入文本之间的对齐度，确保图像内容与文本描述的准确性。减少过拟合：基于偏好分解和重加权策略，LongAlign减少了微调过程中的过拟合问题，提高了模型的泛化能力。

LongAlign的技术原理

分段级编码：将长文本分割成多个段落（或句子），每个段落独立编码，将编码结果合并。支持模型处理超出最大输入长度限制的文本。偏好分解：分析偏好模型的评分机制，将偏好分数分解为两部分：文本相关部分（衡量文本到图像的对齐）和文本无关部分（评估图像的其他视觉方面，如美学）。重加权策略：为解决过拟合问题，LongAlign提出一种为文本相关和无关部分分配不同权重的策略。策略基于减少文本无关部分的权重，增强模型对文本内容的关注，提高对齐度。

LongAlign的项目地址

GitHub仓库：https://github.com/luping-liu/LongAlignarXiv技术论文：https://arxiv.org/pdf/2410.11817

LongAlign的应用场景

艺术创作：艺术家和设计师生成与详细描述相匹配的图像，在数字艺术创作中实现更精确的视觉表达。游戏开发：在游戏设计中，帮助创建与游戏背景故事或特定场景描述相符合的图像和概念艺术。电影和娱乐行业：电影制作人和娱乐行业生成与剧本或故事板描述相匹配的图像，用于前期制作或视觉特效设计。广告和营销：广告公司生成与广告文案或营销活动描述相匹配的图像，提高广告的视觉吸引力。教育和培训：在教育领域，生成与教学材料或课程内容描述相匹配的图像，增强学习体验。