当前位置: 网站首页 >AI教程资讯 >正文

SmolVLM – Hugging Face推出的轻量级视觉语言模型

来源:爱论文 时间:2025-02-01 17:52:39

SmolVLM是什么

SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求:SmolVLM-Base:适用于下游任务的微调。SmolVLM-Synthetic:基于合成数据进行微调。SmolVLM-Instruct:指令微调版本,可直接应用于交互式应用中。模型借鉴Idefics3理念,采用SmolLM2 1.7B作为语言主干,通过像素混洗技术提升视觉信息压缩效率。在Cauldron和Docmatix数据集上训练,优化了图像编码和文本处理能力。

SmolVLM的主要功能

设备端推理:SmolVLM专为设备端推理设计,能在笔记本电脑、消费级GPU或移动设备等资源有限的环境下有效运行。微调能力:模型提供三个版本以满足不同需求:SmolVLM-Base用于下游任务的微调;SmolVLM-Synthetic基于合成数据进行微调;SmolVLM-Instruct指令微调版本,可直接应用于交互式应用中。优化的架构设计:借鉴Idefics3的理念,使用SmolLM2 1.7B作为语言主干,通过像素混洗策略提高视觉信息的压缩率,实现更高效的视觉信息处理。处理长文本和多张图像:训练数据集包括Cauldron和Docmatix,对SmolLM2进行上下文扩展,能处理更长的文本序列和多张图像。内存占用低:SmolVLM将384×384像素的图像块编码为81个tokens,相比之下,Qwen2-VL需要1.6万个tokens,显著降低了内存占用。高吞吐量:在多个基准测试中,SmolVLM的预填充吞吐量比Qwen2-VL快3.3到4.5倍,生成吞吐量快7.5到16倍。开源模型:SmolVLM完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。训练数据集:SmolVLM涵盖了Cauldron和Docmatix,并对SmolLM2进行了上下文扩展,使其能够处理更长的文本序列和多张图像。

SmolVLM的项目地址

Github仓库:https://github.com/huggingface/blog/blob/main/smolvlm.mdHuggingFace模型库:https://huggingface.co/blog/smolvlm在线体验Demo:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM数据集完整列表:https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct/blob/main/smolvlm-data.pdf

SmolVLM的应用场景

视频分析:SmolVLM展现出了作为基本视频分析任务的潜力,在计算资源受限的情况下。在CinePile基准测试中,SmolVLM取得了27.14%的得分,显示了在视频理解能力上的竞争性。视觉语言处理:SmolVLM为开发者和研究者提供了一个强大的工具,便于进行视觉语言处理,无需投入高昂的硬件费用。本地部署:小模型支持在浏览器或边缘设备上进行本地部署,减少推理成本,支持用户自定义。AI普及化:SmolVLM的发展有望扩大视觉语言模型的使用范围,复杂的AI系统更加普及和可访问,为更广泛的受众提供强大的机器学习功能。
上一篇:OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型
相关资讯 更多+
  • SmolVLM – Hugging Face推出的轻量级视觉语言模型
    SmolVLM – Hugging Face推出的轻量级视觉语言模型

    SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求:SmolVLM-Base:适用于下游任务的微调。SmolVLM-Synthetic:基于合成数据进行微调。SmolVLM-Instruct:指令微调版本,可直接应用于交互式应用中。

    AI教程资讯 2023-04-14

  • OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型
    OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型

    OneDiffusion是AI2推出的多功能大规模扩散模型,能无缝支持双向图像合成和理解,涵盖文本到图像生成、条件图像生成、图像理解等多种任务。基于将所有条件和目标图像建模为序列“视图”训练,实现在推理时任意帧作为条件图像的能力。

    AI教程资讯 2023-04-14

  • LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法
    LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

    LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。

    AI教程资讯 2023-04-14

  • ebook2audiobookXTTS – 开源电子书转有声书 AI 工具,支持16种语言
    ebook2audiobookXTTS – 开源电子书转有声书 AI 工具,支持16种语言

    ebook2audiobookXTTS是开源的AI工具,能将电子书转换为有声书。ebook2audiobookXTTS支持多种电子书格式,如epub、pdf、mobi等,用Coqui XTTS技术实现高质量的文本到语音转换。工具支持16种语言,操作简便,提供命令行、Web界面和Docker容器等多种使用方式。

    AI教程资讯 2023-04-14

最新录入 更多+
确定