当前位置: 网站首页 >AI教程资讯 >正文

MARS – 字节推出优化大模型训练效率的框架

来源:爱论文 时间:2025-02-05 18:20:12

MARS是什么

MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。

MARS

MARS的主要功能

提高训练效率:MARS结合预条件梯度方法和方差减少技术,提高大型模型训练的效率,尤其是在训练深度神经网络和大型语言模型时。统一优化框架:提供适应不同Hessian近似方法的统一框架,包括全矩阵和对角矩阵近似。算法实例化:在MARS框架下,实现三种具体的优化算法实例:MARS-AdamW、MARS-Lion和MARS-Shampoo,分别基于不同的预条件梯度更新策略。方差减少:引入缩放随机递归动量技术,有效减少训练过程中的梯度方差,加速模型收敛。

MARS的技术原理

预条件梯度方法:基于预条件梯度方法调整学习率,让每个参数或参数组有定制的学习率,适应其局部曲率。方差减少技术:引入方差减少技术,如STORM(Stochastic Recursive Momentum),减少随机梯度的方差,加速优化过程。缩放随机递归动量:在STORM的基础上引入缩放参数,调整方差减少的强度,定义新的梯度估计器。梯度裁剪和指数移动平均:为优化训练稳定性,MARS在梯度估计器中应用梯度裁剪,用指数移动平均(EMA)计算递归动量。

MARS的项目地址

arXiv技术论文:https://arxiv.org/pdf/2411.10438

MARS的应用场景

深度学习模型训练:训练深度神经网络,尤其是参数众多的复杂模型。大规模语言模型:优化大型语言模型的训练过程,如GPT系列模型,提高训练效率和模型性能。计算机视觉任务:在图像分类、目标检测等计算机视觉领域中,加速模型的训练和提高模型的泛化能力。强化学习算法:在强化学习中,优化策略网络或价值函数的参数,尤其是在面对高方差梯度时。推荐系统模型:在构建推荐系统时,优化模型参数,更好地处理大规模用户和物品特征。
上一篇:Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式
相关资讯 更多+
  • MARS – 字节推出优化大模型训练效率的框架
    MARS – 字节推出优化大模型训练效率的框架

    MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。

    AI教程资讯 2023-04-14

  • Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式
    Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式

    Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering基于自动化验证器执行验证任务并向基础模型提供反馈,分为搜索、验证和反馈三个阶段,优化模型性能。

    AI教程资讯 2023-04-14

  • XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架
    XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架

    XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结构化架构表示,增强对数据库结构的理解,包括数据类型、主键和示例值。

    AI教程资讯 2023-04-14

  • KuaiFormer – 快手推出的检索框架,基于Transformer
    KuaiFormer – 快手推出的检索框架,基于Transformer

    KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“下一个动作预测”范式,有效进行实时兴趣获取和多兴趣提取,显著提升检索性能。KuaiFormer用多兴趣查询Token、自适应序列压缩机制,实现在亿级候选集上的稳定训练。

    AI教程资讯 2023-04-14

最新录入 更多+
确定