SmolLM2 – Hugging Face推出的紧凑型大语言模型-爱论文

SmolLM2是什么

SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型，提供1.7B、360M、135M三个不同参数级别的模型，适应不同的应用场景和资源限制。模型在理解和执行指令、进行知识推理及解决数学问题方面表现出显著的进步。基于采用监督微调和超反馈优化技术，SmolLLM2能更准确地理解和响应复杂的指令，且在文本重写、摘要生成和函数调用等任务上展现出强大的能力。让SmolLLM2非常适合需要在本地设备上进行高效语言处理的应用，如智能助手、聊天机器人和其他需要自然语言理解的设备端服务。

SmolLM2的主要功能

文本重写：SmolLLM2模型能对文本进行重写，让文本更加精炼或符合特定的风格和要求。摘要生成：模型能从较长的文本中提取关键信息，生成摘要。函数调用：SmolLLM2支持函数调用，对于自动编码助手或需要与现有软件无缝集成的个人AI应用程序特别有用。设备端运行：SmolLLM2能在本地设备上运行，无需依赖云基础设施，适合延迟、隐私和硬件限制重要的应用场景。多任务处理：模型针对多种自然语言处理任务进行优化，适合各种应用程序，尤其是在与云服务连接受限的设备上。

SmolLM2的技术原理

后训练技术：SmolLLM2系列包含先进的后训练技术，如监督微调(SFT)和直接偏好优化(DPO)，增强模型处理复杂指令和提供更准确响应的能力。框架兼容性：SmolLLM2与llama.cpp和Transformers.js等框架兼容，能在设备上高效运行，包括本地CPU处理和在浏览器环境中运行，无需专门的GPU。数据集训练：SmolLLM2用来自FineWeb-Edu、DCLM和Stack等数据集的11万亿个标记进行训练，涵盖广泛的内容，主要侧重于英语文本。模型结构：SmolLLM2的135M和360M模型用和MobileLLM类似的设计，加入Grouped-Query Attention结构，1.7B模型用相对传统的设计。所有模型均用embedding tying，上下文长度为2048个token。

SmolLM2的项目地址

HuggingFace模型库：https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

SmolLM2的应用场景

设备端应用：SmolLLM2专为在资源有限的设备上运行设计，如智能手机或边缘设备，无需依赖云基础设施。延迟敏感和隐私保护：适于对延迟和数据隐私有高要求的应用，如边缘AI应用。文本处理任务：包括文本重写、摘要生成和函数调用等，特别是在云服务连接受限的设备上。自动编码助手：支持与现有软件无缝集成的自动编码助手或个人AI应用程序，特别是需要函数调用功能的场合。NLP任务：在常见的自然语言处理任务中表现出色，适合需要实时设备处理的应用。