MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法-爱论文

MHA2MLA是什么

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法，基于引入DeepSeek的多头潜在注意力机制（MLA），优化任何基于Transformer的LLM的推理效率，降低推理成本。MHA2MLA基于两个关键策略实现：一是partial-RoPE，移除对注意力分数贡献较小的查询和键的旋转位置编码（RoPE）维度；二是低秩近似，基于联合奇异值分解（SVD）对键和值进行压缩，减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调，能在大幅减少KV缓存（如92.19%）的同时，将性能损失控制在极小范围内（如LongBench性能仅下降0.5%）。

MHA2MLA的主要功能

显著减少KV缓存：基于低秩压缩技术，将KV缓存的大小大幅减少（最高可达96.87%），降低推理时的内存占用。保持模型性能：在极低的数据量（0.3%到0.6%的原始训练数据）下进行微调，将性能损失控制在极小范围内（如LongBench性能仅下降0.5%）。与现有技术兼容：与量化技术（如4-bit量化）结合使用，进一步提升推理效率。数据高效性：仅需少量数据即可完成从MHA到MLA的架构转换，适合在资源受限的环境中快速部署。

MHA2MLA的技术原理

Partial-RoPE（部分旋转位置编码）：在MHA中，旋转位置编码（RoPE）基于旋转操作将位置信息融入查询向量（Q）和键向量（K），帮助模型捕捉序列中的位置关系。基于计算每个维度对注意力分数的贡献，移除贡献较小的RoPE维度（即“不重要的”维度），减少计算量和内存占用。这一过程称为“部分RoPE”，在保留关键位置信息的同时，为低秩压缩腾出空间。低秩近似（Low-Rank Approximation）：MLA基于低秩联合压缩键值（KV）减少内存占用。MHA2MLA借鉴这一思想，对MHA中的键和值参数矩阵进行奇异值分解（SVD）。将键和值矩阵分解为低秩矩阵的乘积，用更少的参数近似原始矩阵。为更好地保留键和值之间的交互信息，MHA2MLA联合SVD（SVDjoint）策略，对键和值矩阵进行联合分解，而不是分别处理。

MHA2MLA的项目地址

GitHub仓库：https://github.com/JT-Ushio/MHA2MLAarXiv技术论文：https://arxiv.org/pdf/2502.14837

MHA2MLA的应用场景

边缘设备部署：降低模型内存占用，使其适配资源受限的智能终端和物联网设备。大规模模型推理：减少KV缓存，提升推理效率，降低硬件成本和能耗。结合量化技术：与量化技术结合，进一步优化推理性能，适用于实时对话和在线翻译等场景。长文本处理：降低长文本任务的内存瓶颈，高效处理长文档摘要和长篇生成。快速模型迁移：仅需少量数据微调，快速将MHA模型转换为MLA架构，降低迁移成本。