当前位置: 网站首页 >AI教程资讯 >正文

SmolLM2 – Hugging Face推出的紧凑型大语言模型

来源:爱论文 时间:2025-02-12 14:16:43

SmolLM2是什么

SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型,提供1.7B、360M、135M三个不同参数级别的模型,适应不同的应用场景和资源限制。模型在理解和执行指令、进行知识推理及解决数学问题方面表现出显著的进步。基于采用监督微调和超反馈优化技术,SmolLLM2能更准确地理解和响应复杂的指令,且在文本重写、摘要生成和函数调用等任务上展现出强大的能力。让SmolLLM2非常适合需要在本地设备上进行高效语言处理的应用,如智能助手、聊天机器人和其他需要自然语言理解的设备端服务。

SmolLM2

SmolLM2的主要功能

文本重写:SmolLLM2模型能对文本进行重写,让文本更加精炼或符合特定的风格和要求。摘要生成:模型能从较长的文本中提取关键信息,生成摘要。函数调用:SmolLLM2支持函数调用,对于自动编码助手或需要与现有软件无缝集成的个人AI应用程序特别有用。设备端运行:SmolLLM2能在本地设备上运行,无需依赖云基础设施,适合延迟、隐私和硬件限制重要的应用场景。多任务处理:模型针对多种自然语言处理任务进行优化,适合各种应用程序,尤其是在与云服务连接受限的设备上。

SmolLM2的技术原理

后训练技术:SmolLLM2系列包含先进的后训练技术,如监督微调(SFT)和直接偏好优化(DPO),增强模型处理复杂指令和提供更准确响应的能力。框架兼容性:SmolLLM2与llama.cpp和Transformers.js等框架兼容,能在设备上高效运行,包括本地CPU处理和在浏览器环境中运行,无需专门的GPU。数据集训练:SmolLLM2用来自FineWeb-Edu、DCLM和Stack等数据集的11万亿个标记进行训练,涵盖广泛的内容,主要侧重于英语文本。模型结构:SmolLLM2的135M和360M模型用和MobileLLM类似的设计,加入Grouped-Query Attention结构,1.7B模型用相对传统的设计。所有模型均用embedding tying,上下文长度为2048个token。

SmolLM2的项目地址

HuggingFace模型库:https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

SmolLM2的应用场景

设备端应用:SmolLLM2专为在资源有限的设备上运行设计,如智能手机或边缘设备,无需依赖云基础设施。延迟敏感和隐私保护:适于对延迟和数据隐私有高要求的应用,如边缘AI应用。文本处理任务:包括文本重写、摘要生成和函数调用等,特别是在云服务连接受限的设备上。自动编码助手:支持与现有软件无缝集成的自动编码助手或个人AI应用程序,特别是需要函数调用功能的场合。NLP任务:在常见的自然语言处理任务中表现出色,适合需要实时设备处理的应用。
上一篇:Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型
相关资讯 更多+
  • SmolLM2 – Hugging Face推出的紧凑型大语言模型
    SmolLM2 – Hugging Face推出的紧凑型大语言模型

    SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型,提供1 7B、360M、135M三个不同参数级别的模型,适应不同的应用场景和资源限制。模型在理解和执行指令、进行知识推理及解决数学问题方面表现出显著的进步。

    AI教程资讯 2023-04-14

  • Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型
    Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型

    Genmoai-smol是开源视频生成模型,是Genmoai的txt2video模型的工作进展分支,专为单GPU设备优化,减少显存占用,在资源有限的设备上能进行视频创作。模型用高保真度的运动和强大的提示遵循能力而闻名,显著缩小开放和封闭视频生成系统之间的差距。

    AI教程资讯 2023-04-14

  • VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具
    VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

    VirSci(Virtual Scientists)是上海人工智能实验室推出的多智能体AI科学研究工具,基于模拟科学家团队的合作过程加速科研创新。系统基于大型语言模型(LLMs),用组织智能体团队合作生成、评估和完善研究创意,展现出在科学创意生成中的创新性和影响力,超过传统单智能体系统。

    AI教程资讯 2023-04-14

  • Self-Lengthen – 阿里千问推出的提升输出长度迭代训练框架
    Self-Lengthen – 阿里千问推出的提升输出长度迭代训练框架

    Self-Lengthen是阿里巴巴千问团队推出的创新的迭代训练框架,能提升大型语言模型(LLMs)生成长文本的能力。框架基于两个角色,生成器和扩展器协同工作,生成器负责生成初始响应,扩展器将响应拆分、扩展产生更长的文本。

    AI教程资讯 2023-04-14

最新录入 更多+
确定