KTransformers – 清华开源的大语言模型推理优化框架-爱论文

KTransformers是什么

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目，能优化大语言模型的推理性能，降低硬件门槛。KTransformers基于GPU/CPU异构计算策略，用MoE架构的稀疏性，支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版，预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。项目用基于计算强度的offload策略、高性能算子和CUDA Graph优化等技术，显著提升推理速度。

KTransformers的主要功能

支持超大模型的本地推理：支持在仅24GB显存的单张显卡上运行DeepSeek-R1等671B参数的满血版大模型，打破传统硬件限制。提升推理速度：预处理速度最高可达286 tokens/s，推理生成速度达14 tokens/s。兼容多种模型和算子：支持DeepSeek系列及其他MoE架构模型，提供灵活的模板注入框架，支持用户切换量化策略和内核替换，适应不同优化需求。降低硬件门槛：将大模型的显存需求大幅降低，让普通用户和中小团队能在消费级硬件上运行千亿级参数模型，实现“家庭化”部署。支持长序列任务：整合Intel AMX指令集，CPU预填充速度可达286 tokens/s，相比传统方案快28倍，将长序列任务的处理时间从“分钟级”缩短到“秒级”。

KTransformers的技术原理

MoE架构：将稀疏的MoE矩阵卸载到CPU/DRAM上处理，稠密部分保留在GPU上，大幅降低显存需求。offload策略：根据计算强度将任务分配到GPU和CPU：计算强度高的任务（如MLA算子）优先分配到GPU，计算强度低的任务分配到CPU。高性能算子优化：CPU端：用llamafile作为CPU内核，结合多线程、任务调度、负载均衡等优化，提升CPU推理效率。GPU端：引入Marlin算子，专门优化量化矩阵计算，相比传统库（如Torch）实现3.87倍的加速效果。CUDA Graph优化：基于CUDA Graph减少Python调用开销，降低CPU/GPU通信的断点，实现高效的异构计算协同。每次decode仅需一个完整的CUDA Graph调用，显著提升推理性能。量化与存储优化：采用4bit量化技术，进一步压缩模型存储需求，仅需24GB显存即可运行671B参数模型。同时优化KV缓存大小，减少存储开销。模板注入框架：提供基于YAML的模板注入框架，支持用户灵活切换量化策略、内核替换等优化方式，适应不同场景的需求。

KTransformers的项目地址

GitHub仓库：https://github.com/kvcache-ai/ktransformers

KTransformers的应用场景

个人开发与中小团队：在消费级硬件上运行大模型，进行文本生成、问答系统等开发，降低成本。长序列任务：高效处理长文本、代码分析等任务，将处理时间从分钟级缩短到秒级。企业级应用：本地部署大模型，用于智能客服、内容推荐等，节省云服务费用。学术研究：在普通硬件上探索和优化MoE架构模型，加速研究进程。教育与培训：作为教学工具，帮助学生实践大模型应用，理解优化技术。