当前位置: 网站首页 >AI教程资讯 >正文

SaRA – 上海交大联合腾讯推出的预训练扩散模型微调方法

来源:爱论文 时间:2025-02-18 12:07:51

SaRA是什么

SaRA是一种新型的预训练扩散模型微调方法,由上海交通大学和腾讯优图实验室共同推出。基于重新激活预训练过程中看似无效的参数,让模型能适应新任务。SaRA基于核范数低秩稀疏训练方案避免过拟合,引入渐进式参数调整策略,优化模型性能。SaRA能提高模型的适应性和泛化能力,显著降低计算成本,只要修改一行代码即可实现,具有很高的实用价值。

SaRA

SaRA的主要功能

参数重新利用:激活在预训练中未被充分利用的参数,赋予模型新的能力。防止过拟合:基于核范数低秩稀疏训练方案,减少模型在微调过程中的过拟合现象。渐进式参数调整:在整个微调过程中不断评估和选择参数,确保所有潜在有效的参数都得到充分利用。非结构化反向传播:降低微调过程中的内存成本,提高参数场的选择性。提升模型性能:在保持预训练模型原有知识的同时,优化模型在主任务上的表现。

SaRA的技术原理

参数重要性分析:分析预训练模型中的参数,识别出生成过程中影响不大的参数。低秩稀疏训练:对参数施加低秩约束,基于优化一个稀疏权重矩阵学习特定任务的知识,提高微调效率减少过拟合。渐进式参数调整策略:设计一种策略,在整个微调过程中动态调整参数,确保所有潜在有效的参数得到充分利用。非结构化反向传播:基于一种特殊的反向传播策略,减少微调过程中的内存消耗,增强模型对特定任务的适应性。模型兼容性:SaRA方法与现有的预训练模型兼容,仅需少量代码修改可实现微调,易于集成到现有的系统中。

SaRA的项目地址

项目官网:sjtuplayer.github.io/projects/SaRAGitHub仓库:https://github.com/sjtuplayer/SaRAarXiv技术论文:https://export.arxiv.org/pdf/2409.06633

SaRA的应用场景

图像风格迁移:用SaRA调整模型参数,将普通图像转换为具有特定艺术风格的图像,如油画或素描风格,保持内容和结构不变。图像定制化:在Dreambooth等应用中,SaRA用在微调UNet网络,实现对特定对象或风格的图像定制化,如生成具有特定特征的图像。视频生成:SaRA用在微调视频生成模型(如AnimateDiff),在不同摄像机运动(如缩放、平移)的数据集上进行微调,生成具有特定动态效果的视频。下游数据集微调:SaRA用在在各种下游数据集上进行微调,适应不同的领域特定任务,如在不同风格数据集上进行微调,生成与文本提示一致的图像。图像生成任务:SaRA用在提高预训练模型在图像生成任务中的性能,通过优化最初无效的参数,提升模型在主任务上的表现。
上一篇:Quanta Quest – 开源的AI个人数据库产品,多平台数据整合
相关资讯 更多+
  • SaRA – 上海交大联合腾讯推出的预训练扩散模型微调方法
    SaRA – 上海交大联合腾讯推出的预训练扩散模型微调方法

    SaRA是一种新型的预训练扩散模型微调方法,由上海交通大学和腾讯优图实验室共同推出。基于重新激活预训练过程中看似无效的参数,让模型能适应新任务。SaRA基于核范数低秩稀疏训练方案避免过拟合,引入渐进式参数调整策略,优化模型性能。

    AI教程资讯 2023-04-14

  • Quanta Quest – 开源的AI个人数据库产品,多平台数据整合
    Quanta Quest – 开源的AI个人数据库产品,多平台数据整合

    Quanta Quest是一款面向个人用户的开源AI时代智能数据库产品,基于将个人数据如Gmail、Dropbox、Notion等整合到一个平台上,用RAG技术提供AI搜索功能,帮助用户高效管理和检索信息。Quanta Quest特别强调隐私保护和数据安全,确保用户数据的本地化处理,在保护个人隐私的同时,提供强大的数据检索能力。

    AI教程资讯 2023-04-14

  • BiGR – 统一条件生成图像的模型框架,增强生成质量和表示能力
    BiGR – 统一条件生成图像的模型框架,增强生成质量和表示能力

    BiGR是一种新型的条件图像生成模型,用紧凑的二进制潜在代码进行生成训练,增强图像的生成质量和表示能力。作为首个在同一框架内统一生成和判别任务的模型,BiGR在保持高生成质量的同时,能有效地执行视觉生成、辨别和编辑等多种视觉任务。

    AI教程资讯 2023-04-14

  • MoE++ – 昆仑万维和北大联合推出的混合专家架构
    MoE++ – 昆仑万维和北大联合推出的混合专家架构

    MoE++是一种新型的混合专家(Mixture-of-Experts)架构,由昆仑万维2050研究院与北大袁粒团队联合推出。基于引入零计算量专家,即零专家、复制专家和常数专家,降低计算成本、提升模型性能。MoE++支持每个Token动态地与不同数量的前馈网络专家交互,甚至跳过某些层,优化计算资源分配。

    AI教程资讯 2023-04-14

最新录入 更多+
确定