Chitu – 清华联合清程极智开源的大模型推理引擎-爱论文

Chitu是什么

Chitu（赤兔）是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎，专为解决大模型在推理阶段的高成本和低效率问题设计，具有强大的硬件适配能力，支持英伟达多款GPU及国产芯片，打破了对特定硬件（如英伟达Hopper架构）的依赖。在性能方面，在A800集群上部署DeepSeek-R1-671B时，相比部分国外开源框架，GPU使用量减少50%，推理速度提升3.15倍。支持从纯CPU到大规模集群的全场景部署，能满足不同规模和场景下的推理需求。

Chitu的主要功能

多元算力适配：支持英伟达从最新旗舰到旧款的多系列GPU，同时为国产芯片提供优化支持，打破了对英伟达Hopper架构的依赖。全场景可伸缩：从纯CPU部署、单GPU部署到大规模集群部署，赤兔引擎都能提供可扩展的解决方案，满足不同规模和场景下的推理需求。低延迟优化：针对对延迟敏感的场景，如金融风控等，优化模型推理速度，减少响应时间。高吞吐优化：在高并发场景下，如智能客服，提高单位时间内处理的请求数量。小显存优化：降低单卡显存占用，使企业可以用更少的硬件资源获得更高的推理性能。长期稳定运行：赤兔引擎可应用于实际生产环境，稳定性足以承载并发业务流量。开箱即用：清程极智推出了基于赤兔的推理一体机，提供开箱即用的部署方案及专业运维服务，进一步简化企业AI落地流程。

Chitu的技术原理

底层技术革新：赤兔引擎通过底层技术革新，首次实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型。打破了过去FP8模型对英伟达H系列高端GPU的依赖，使企业可以在更多类型的硬件上高效部署大模型。算子级优化：赤兔对关键算子（如GeMM、MoE等）进行了指令级优化，直接处理FP8数据而非简单量化。确保了模型精度无损，同时显著提升了推理速度。在A800集群的测试中，相比部分国外开源框架，赤兔引擎在GPU使用量减少50%的情况下，推理速度仍有3.15倍的提升。全场景性能优化：赤兔引擎支持低延迟、高吞吐和小显存优化，能根据不同场景需求，在不同硬件配置和系统环境下，提供最优解决方案。赤兔可以根据系统资源状况，在GPU利用率、内存效率和网络传输之间寻找最佳平衡点。并行计算与编译优化：赤兔引擎凝结了清华大学团队多年的并行计算与编译优化技术积累。通过智能编译技术，团队能够加速高性能算子的开发过程，在较短时间内实现对不同硬件架构的优化。

Chitu的项目地址

Github仓库：https://github.com/thu-pacman/chitu

Chitu的应用场景

风险识别与预警：赤兔引擎能快速处理海量交易数据，实时监测潜在风险并及时预警，帮助金融机构提升风险管理效率。智能客服与客户体验优化：通过大模型智能知识库，快速响应客户需求，提升服务体验。疾病诊断辅助：赤兔引擎能快速处理医疗数据，提升疾病诊断的速度和准确性，改善患者的就医体验。交通流量优化：赤兔引擎可以实时处理交通数据，优化交通流量，缓解城市拥堵。科研数据分析：赤兔引擎能高效处理科研数据，加速科研进程。