当前位置: 网站首页 >AI教程资讯 >正文

ParGo – 字节与中山大学联合推出的多模态大模型连接器

来源:爱论文 时间:2025-03-28 13:34:14

ParGo是什么

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

ParGo的主要功能

高效连接视觉与语言模态:ParGo采用全局+局部视角联合的方式,通过Partial-Global Perception Block(PGP)和Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为Partial token和Global token,分别提取图像的局部和全局信息,实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。提升多模态大语言模型效果:在多个MLLM基准测试中表现出色,如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中,ParGo显著优于其他投影器,能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。自监督学习增强上下文理解:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力,提高了模型的泛化性能,减少了对大规模标注数据的依赖。

ParGo的技术原理

全局+局部视角联合:ParGo采用两种类型的可学习token,基于attention机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。Partial-Global Perception Block (PGP):在ParGo中,视觉编码器的特征被映射为两种不同类型的token:Partial token和Global token,能够分别提取图像的局部和全局信息。Partial tokens:每个token仅与部分视觉特征进行交互,专注于图像的局部信息。Global tokens:全局token则与所有视觉特征进行交互,捕捉图像的全局信息。Cascaded Partial Perception Block (CPP):ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制,随着层数的增加,每个Partial token能访问到更多的相邻token,逐步扩展其感知范围。自监督学习策略:在训练阶段,ParGo引入了自监督学习策略,即通过预测遮挡部分的内容来增强模型对上下文的理解能力。

ParGo的项目地址

Github仓库:https://github.com/bytedance/ParGoarXiv技术论文:https://arxiv.org/pdf/2408.12928

ParGo的应用场景

视觉问答系统:ParGo能理解图像中的视觉线索,解析文本中的语义信息,在视觉问答任务中表现出色。图像字幕生成:ParGo在COCO Caption等任务上表现尤为突出,能生成高质量的图像字幕。能描述图像的全局信息,还能捕捉到图像中的局部细节,生成更加准确和丰富的字幕。跨模态检索:ParGo可以用于跨模态检索任务,帮助用户通过文本查询找到相关的图像,或者通过图像查询找到相关的文本。情感分析:ParGo能理解图像和文本中的情感信息,在情感分析任务中提供更准确的结果。 图像内容理解:ParGo可以用于图像内容理解任务,帮助系统更好地理解图像中的细节和全局信息。
上一篇:MatterGen – 微软推出的无机材料生成模型
相关资讯 更多+
  • ParGo – 字节与中山大学联合推出的多模态大模型连接器
    ParGo – 字节与中山大学联合推出的多模态大模型连接器

    ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息。

    AI教程资讯 2023-04-14

  • MatterGen – 微软推出的无机材料生成模型
    MatterGen – 微软推出的无机材料生成模型

    MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,从而生成跨越周期表的稳定、多样化的无机材料。MatterGen能被微调,满足广泛的性能约束,如化学组成、对称性、磁性、电子和机械性能等。

    AI教程资讯 2023-04-14

  • XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架
    XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

    XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术,可将提示词内容解析至符号音乐要素空间,以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。

    AI教程资讯 2023-04-14

  • Seaweed APT – 字节跳动推出的单步图像和视频生成项目
    Seaweed APT – 字节跳动推出的单步图像和视频生成项目

    Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型,直接对真实数据进行对抗性训练,而非用预训练模型作为教师来生成目标,在单步生成中实现高质量的图像和视频输出。

    AI教程资讯 2023-04-14

最新录入 更多+
确定