SaRA – 上海交大联合腾讯推出的预训练扩散模型微调方法-爱论文

SaRA是什么

SaRA是一种新型的预训练扩散模型微调方法，由上海交通大学和腾讯优图实验室共同推出。基于重新激活预训练过程中看似无效的参数，让模型能适应新任务。SaRA基于核范数低秩稀疏训练方案避免过拟合，引入渐进式参数调整策略，优化模型性能。SaRA能提高模型的适应性和泛化能力，显著降低计算成本，只要修改一行代码即可实现，具有很高的实用价值。

SaRA的主要功能

参数重新利用：激活在预训练中未被充分利用的参数，赋予模型新的能力。防止过拟合：基于核范数低秩稀疏训练方案，减少模型在微调过程中的过拟合现象。渐进式参数调整：在整个微调过程中不断评估和选择参数，确保所有潜在有效的参数都得到充分利用。非结构化反向传播：降低微调过程中的内存成本，提高参数场的选择性。提升模型性能：在保持预训练模型原有知识的同时，优化模型在主任务上的表现。

SaRA的技术原理

参数重要性分析：分析预训练模型中的参数，识别出生成过程中影响不大的参数。低秩稀疏训练：对参数施加低秩约束，基于优化一个稀疏权重矩阵学习特定任务的知识，提高微调效率减少过拟合。渐进式参数调整策略：设计一种策略，在整个微调过程中动态调整参数，确保所有潜在有效的参数得到充分利用。非结构化反向传播：基于一种特殊的反向传播策略，减少微调过程中的内存消耗，增强模型对特定任务的适应性。模型兼容性：SaRA方法与现有的预训练模型兼容，仅需少量代码修改可实现微调，易于集成到现有的系统中。

SaRA的项目地址

项目官网：sjtuplayer.github.io/projects/SaRAGitHub仓库：https://github.com/sjtuplayer/SaRAarXiv技术论文：https://export.arxiv.org/pdf/2409.06633

SaRA的应用场景

图像风格迁移：用SaRA调整模型参数，将普通图像转换为具有特定艺术风格的图像，如油画或素描风格，保持内容和结构不变。图像定制化：在Dreambooth等应用中，SaRA用在微调UNet网络，实现对特定对象或风格的图像定制化，如生成具有特定特征的图像。视频生成：SaRA用在微调视频生成模型（如AnimateDiff），在不同摄像机运动（如缩放、平移）的数据集上进行微调，生成具有特定动态效果的视频。下游数据集微调：SaRA用在在各种下游数据集上进行微调，适应不同的领域特定任务，如在不同风格数据集上进行微调，生成与文本提示一致的图像。图像生成任务：SaRA用在提高预训练模型在图像生成任务中的性能，通过优化最初无效的参数，提升模型在主任务上的表现。