当前位置: 网站首页 >AI教程资讯 >正文

MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法

来源:爱论文 时间:2025-04-12 10:10:51

MHA2MLA是什么

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。MHA2MLA基于两个关键策略实现:一是partial-RoPE,移除对注意力分数贡献较小的查询和键的旋转位置编码(RoPE)维度;二是低秩近似,基于联合奇异值分解(SVD)对键和值进行压缩,减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调,能在大幅减少KV缓存(如92.19%)的同时,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。

MHA2MLA

MHA2MLA的主要功能

显著减少KV缓存:基于低秩压缩技术,将KV缓存的大小大幅减少(最高可达96.87%),降低推理时的内存占用。保持模型性能:在极低的数据量(0.3%到0.6%的原始训练数据)下进行微调,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。与现有技术兼容:与量化技术(如4-bit量化)结合使用,进一步提升推理效率。数据高效性:仅需少量数据即可完成从MHA到MLA的架构转换,适合在资源受限的环境中快速部署。

MHA2MLA的技术原理

Partial-RoPE(部分旋转位置编码):在MHA中,旋转位置编码(RoPE)基于旋转操作将位置信息融入查询向量(Q)和键向量(K),帮助模型捕捉序列中的位置关系。基于计算每个维度对注意力分数的贡献,移除贡献较小的RoPE维度(即“不重要的”维度),减少计算量和内存占用。这一过程称为“部分RoPE”,在保留关键位置信息的同时,为低秩压缩腾出空间。低秩近似(Low-Rank Approximation):MLA基于低秩联合压缩键值(KV)减少内存占用。MHA2MLA借鉴这一思想,对MHA中的键和值参数矩阵进行奇异值分解(SVD)。将键和值矩阵分解为低秩矩阵的乘积,用更少的参数近似原始矩阵。为更好地保留键和值之间的交互信息,MHA2MLA联合SVD(SVDjoint)策略,对键和值矩阵进行联合分解,而不是分别处理。

MHA2MLA的项目地址

GitHub仓库:https://github.com/JT-Ushio/MHA2MLAarXiv技术论文:https://arxiv.org/pdf/2502.14837

MHA2MLA的应用场景

边缘设备部署:降低模型内存占用,使其适配资源受限的智能终端和物联网设备。大规模模型推理:减少KV缓存,提升推理效率,降低硬件成本和能耗。结合量化技术:与量化技术结合,进一步优化推理性能,适用于实时对话和在线翻译等场景。长文本处理:降低长文本任务的内存瓶颈,高效处理长文档摘要和长篇生成。快速模型迁移:仅需少量数据微调,快速将MHA模型转换为MLA架构,降低迁移成本。
上一篇:GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架
相关资讯 更多+
  • MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
    MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法

    MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。

    AI教程资讯 2023-04-14

  • GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架
    GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架

    GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空间和级联的流匹配模型,实现高质量、可扩展的 3D 内容生成。

    AI教程资讯 2023-04-14

  • VACE – 阿里通义推出的视频生成与编辑框架
    VACE – 阿里通义推出的视频生成与编辑框架

    VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。

    AI教程资讯 2023-04-14

  • Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型
    Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型

    Seedream 2 0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LLM)作为文本编码器,能直接从海量数据中学习本土知识,生成具有准确文化细节和审美表达的高保真图像。

    AI教程资讯 2023-04-14

最新录入 更多+
确定