LayerSkip – Meta推出加速大型语言模型推理过程的技术-爱论文

LayerSkip是什么

LayerSkip是一种用在加速大型语言模型（LLMs）推理过程的技术。基于在训练阶段应用层dropout和早期退出损失，让模型在推理时从早期层开始更准确地退出，不需要遍历所有层。提高模型的推理速度，减少计算资源的消耗。LayerSkip引入一种自我推测解码方法，方法基于早期层退出生成令牌，用剩余层进行验证和纠正，提高解码的效率，内存占用更少，从共享计算和激活中获益。LayerSkip在多种任务上显示出显著的速度提升，如文档摘要、编程任务和语义解析等，保持较高的准确性。

LayerSkip的主要功能

加速大型语言模型的推理：减少模型在生成输出时需要遍历的层数，LayerSkip能提高模型的推理速度。早期退出推理：在训练期间应用层dropout和早期退出损失，让模型在推理时从早期层准确退出，不必用所有层。自我推测解码：LayerSkip提出一种自我推测解码方法，支持模型在早期层生成预测，用剩余层进行验证和纠正，提高解码效率。

LayerSkip的技术原理

层dropout：在训练期间，LayerSkip对不同的模型层用不同的dropout率，早期层的dropout率较低，后期层的dropout率较高。差异化的dropout策略鼓励模型在早期层学习更多的通用特征，减少对深层的依赖。早期退出损失：为提高早期层的预测准确性，LayerSkip在训练时引入早期退出损失，让模型的输出层（LM头）更好地处理自早期层的嵌入。自我推测解码：在推理时，LayerSkip用早期层快速生成预测（草案），用模型的剩余层验证和纠正预测。方法基于验证一组令牌比自回归地生成每个令牌更快的事实，减少整体的推理时间。缓存重用：为进一步优化自我推测解码，LayerSkip在草案和验证阶段重用激活和键值（KV）缓存，减少内存占用和计算量。

LayerSkip的项目地址

GitHub仓库：https://github.com/facebookresearch/LayerSkipHuggingFace模型库：https://huggingface.co/collections/facebook/layerskip-666b25c50c8ae90e1965727aarXiv技术论文：https://arxiv.org/pdf/2404.16710

LayerSkip的应用场景

实时应用：在需要即时反馈的场景，如在线客服、聊天机器人和语音识别系统中，LayerSkip能加快响应速度，提升用户体验。移动和边缘计算：LayerSkip减少模型的计算需求，让大型语言模型能部署在资源受限的移动设备或边缘设备上，适于离线或低延迟的应用需求。在线翻译：在多语言环境下，LayerSkip能加速语言模型的推理过程，提供更快速的翻译服务。内容生成：对需要生成文章、报告或代码等文本内容的应用，LayerSkip能提高内容生成的速度，缩短创作时间。自然语言处理（NLP）任务：Layer Skip用在各种NLP任务，如文本摘要、情感分析、问答系统等，提高任务的处理速度。