LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型-爱论文

LLMDet是什么

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言模型（LLM）协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集（GroundingCap-1M），用LLM生成的长描述丰富视觉特征，基于标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中取得了优异的零样本检测性能，作为强大的视觉基础模型，能进一步构建更强大的多模态模型，实现与LLM的互利共赢。

LLMDet的主要功能

开放词汇检测：LLMDet能检测出在训练阶段未见过的任意类别目标，基于文本标签与视觉特征的对齐，实现对新类别的识别。零样本迁移能力：在没有目标类别标注的情况下，直接迁移到新的数据集上进行检测，展现出强大的泛化能力。图像理解与描述生成：LLMDet能生成图像级别的详细描述（caption），包含丰富的细节信息，如对象类型、纹理、颜色、动作等，帮助模型更好地理解图像内容。提升多模态模型性能：作为视觉基础模型，与大型语言模型（LLM）结合，构建更强大的多模态模型，提升模型在视觉问答、图像描述等任务中的表现。

LLMDet的技术原理

数据集构建：用GroundingCap-1M数据集，其中每张图像都配有定位标签和详细的图像级描述。描述包含丰富的细节，帮助模型更好地理解图像中的对象及其关系。模型架构：由标准的开放词汇目标检测器和LLM组成。检测器负责提取图像特征和定位目标，LLM用这些特征生成图像级别的详细描述和区域级别的短语。协同训练：LLMDet基于两个阶段的训练实现与LLM的协同优化。首先，训练投影器（projector）将检测器的特征映射到LLM的输入空间。然后将检测器、投影器和LLM作为整体进行微调，训练目标包括标准的定位损失和描述生成损失。多任务学习：LLMDet引入图像级别和区域级别的描述生成任务，基于生成详细的描述丰富视觉特征，提升模型对图像的整体理解能力。多任务学习方式提升了检测性能，增强了模型的开放词汇能力。

LLMDet的项目地址

GitHub仓库：https://github.com/iSEE-Laboratory/LLMDetarXiv技术论文：https://arxiv.org/pdf/2501.18954

LLMDet的应用场景

智能安防：实时检测摄像头中的异常目标或行为，适应性强，无需重新训练。自动驾驶：帮助车辆识别道路上的各类障碍物和未见过的场景，提升安全性和可靠性。图像内容审核：自动审核图像内容，识别违规或不当内容，提高审核效率。智能相册管理：自动分类和标注照片，方便用户搜索和管理，支持多种未见过的类别。医疗影像分析：分析医学影像，快速识别异常区域，无需大量标注数据。