ParGo – 字节与中山大学联合推出的多模态大模型连接器-爱论文

ParGo是什么

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器，提升视觉和语言模态在多模态大语言模型（MLLMs）中的对齐效果。通过结合局部token和全局token，使用精心设计的注意力掩码分别提取局部和全局信息，在控制token数量的同时增强了局部区域之间的关系建模，考虑图像的细节与全局视角，克服了传统方法中忽视细节的问题。

ParGo的主要功能

高效连接视觉与语言模态：ParGo采用全局+局部视角联合的方式，通过Partial-Global Perception Block（PGP）和Cascaded Partial Perception Block（CPP）两个关键模块，将视觉特征映射为Partial token和Global token，分别提取图像的局部和全局信息，实现了视觉特征和大语言模型（LLM）的高效连接，克服了传统方法对显著区域的过度聚焦问题。提升多模态大语言模型效果：在多个MLLM基准测试中表现出色，如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中，ParGo显著优于其他投影器，能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。自监督学习增强上下文理解：在训练阶段引入自监督学习策略，通过预测遮挡部分的内容来增强模型对上下文的理解能力，提高了模型的泛化性能，减少了对大规模标注数据的依赖。

ParGo的技术原理

全局+局部视角联合：ParGo采用两种类型的可学习token，基于attention机制，同时从局部和全局视角将视觉特征映射到大语言模型（LLM）中。Partial-Global Perception Block (PGP)：在ParGo中，视觉编码器的特征被映射为两种不同类型的token：Partial token和Global token，能够分别提取图像的局部和全局信息。Partial tokens：每个token仅与部分视觉特征进行交互，专注于图像的局部信息。Global tokens：全局token则与所有视觉特征进行交互，捕捉图像的全局信息。Cascaded Partial Perception Block (CPP)：ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制，随着层数的增加，每个Partial token能访问到更多的相邻token，逐步扩展其感知范围。自监督学习策略：在训练阶段，ParGo引入了自监督学习策略，即通过预测遮挡部分的内容来增强模型对上下文的理解能力。

ParGo的项目地址

Github仓库：https://github.com/bytedance/ParGoarXiv技术论文：https://arxiv.org/pdf/2408.12928

ParGo的应用场景

视觉问答系统：ParGo能理解图像中的视觉线索，解析文本中的语义信息，在视觉问答任务中表现出色。图像字幕生成：ParGo在COCO Caption等任务上表现尤为突出，能生成高质量的图像字幕。能描述图像的全局信息，还能捕捉到图像中的局部细节，生成更加准确和丰富的字幕。跨模态检索：ParGo可以用于跨模态检索任务，帮助用户通过文本查询找到相关的图像，或者通过图像查询找到相关的文本。情感分析：ParGo能理解图像和文本中的情感信息，在情感分析任务中提供更准确的结果。图像内容理解：ParGo可以用于图像内容理解任务，帮助系统更好地理解图像中的细节和全局信息。