当前位置: 网站首页 >AI教程资讯 >正文

BGE-VL – 智源研究院联合多所高校开源的多模态向量模型

来源:爱论文 时间:2025-04-10 14:09:27

BGE-VL是什么

BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检索,基于高效的多模态数据合成方法提升模型的泛化能力和检索性能。BGE-VL 系列包括基于 CLIP 架构的 BGE-VL-Base 和 BGE-VL-Large,基于多模态大模型架构的 BGE-VL-MLLM。模型在多个基准测试中表现出色,在组合图像检索任务中刷新了现有基准,显著提升检索精度。BGE-VL 的核心优势在于数据合成方法的可扩展性和高质量,模型在多模态任务上的卓越泛化能力。

BGE-VL

BGE-VL的主要功能

图文检索:根据输入的文本描述检索出与之最相关的图像,或根据输入的图像检索出相关的文本信息。组合图像检索:支持用户同时输入图像和文本指令,综合理解两者信息检索出更精准的目标图像多模态嵌入:将图像和文本映射到统一的向量空间中,让不同模态的数据用向量相似度进行比较和检索。指令微调:基于合成的多模态指令数据对模型进行微调,更好地理解和执行复杂的多模态任务,提升模型的泛化能力和任务适应性。

BGE-VL的技术原理

数据合成方法(MegaPairs):数据挖掘:从海量图文语料库中挖掘多样化的图像对,用多种相似度模型(如 CLIP 等)找到与查询图像相关的候选图像。指令生成:基于多模态大语言模型(MLLM)和大语言模型(LLM)生成开放域检索指令,总结图像对之间的关联关系,撰写高质量的检索指令。三元组构造:生成包含“查询图像、查询语句、目标图像”的多模态三元组数据,用在模型训练。数据无需人工标注,具有高效性和可扩展性。多模态模型架构:基于 CLIP 的架构:BGE-VL-Base 和 BGE-VL-Large 用类似 CLIP 的架构,将图像编码器和文本编码器将图像和文本映射到同一向量空间中,对比学习优化模型性能。多模态大模型架构:BGE-VL-MLLM 基于更复杂的多模态大模型架构,处理复杂的多模态交互和指令理解任务。指令微调:基于合成的多模态指令数据对模型进行微调,增强模型对多模态任务的理解和执行能力。对比学习与优化:在训练过程中,模型对比学习优化多模态嵌入的向量表示,让相关图像和文本在向量空间中更接近,不相关的数据则更远离。基于大规模合成数据的训练,模型学习到更泛化的多模态特征表示,在多种多模态任务中表现出色。

BGE-VL的项目地址

HuggingFace模型库:https://huggingface.co/collections/BAAI/megapairs

BGE-VL的应用场景

智能搜索:用户上传图片或输入文字,快速找到相关内容,提升搜索精准度。内容推荐:根据用户上传的内容或兴趣,推荐相似的图文资料,增强个性化体验。图像编辑辅助:帮助设计师快速找到风格相似的参考图像,提高创作效率。智能客服:结合图像和文字理解用户问题,提供更直观的解决方案,提升服务效率。文化遗产研究:基于图片和文字检索,快速找到相关文物或研究资料,助力考古和保护工作。
上一篇:混元图生视频 – 腾讯混元开源的图生视频模型
相关资讯 更多+
  • BGE-VL – 智源研究院联合多所高校开源的多模态向量模型
    BGE-VL – 智源研究院联合多所高校开源的多模态向量模型

    BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检索,基于高效的多模态数据合成方法提升模型的泛化能力和检索性能。

    AI教程资讯 2023-04-14

  • 混元图生视频 – 腾讯混元开源的图生视频模型
    混元图生视频 – 腾讯混元开源的图生视频模型

    混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景,总参数量为130亿。

    AI教程资讯 2023-04-14

  • Granite 3.2 – IBM 开源的多模态系列 AI 模型
    Granite 3.2 – IBM 开源的多模态系列 AI 模型

    Granite 3 2 是IBM开源的多模态AI模型系列,具备强大的推理、视觉理解和预测能力。Granite 3 2包含多个版本, Granite 3 2 Instruct 提供实验性链式推理能力,显著提升复杂指令执行性能;Granite Vision 3 2 2B 是首个视觉语言模型,专注于文档理解,性能媲美更大规模模型。

    AI教程资讯 2023-04-14

  • Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议
    Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议

    Resume Matcher 是开源的 AI 简历优化工具,帮助求职者提升简历通过自动化筛选系统(ATS)的概率。Resume Matcher基于解析简历和职位描述,提取关键技能、经验和资格相关的关键词,用 FastEmbed 等技术计算文本相似性,提供针对性的改进建议。

    AI教程资讯 2023-04-14

最新录入 更多+
确定