当前位置: 网站首页 >AI教程资讯 >正文

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

来源:爱论文 时间:2025-03-21 10:24:29

LLMDet是什么

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。LLMDet在多个基准测试中取得了优异的零样本检测性能,作为强大的视觉基础模型,能进一步构建更强大的多模态模型,实现与LLM的互利共赢。

LLMDet

LLMDet的主要功能

开放词汇检测:LLMDet能检测出在训练阶段未见过的任意类别目标,基于文本标签与视觉特征的对齐,实现对新类别的识别。零样本迁移能力:在没有目标类别标注的情况下,直接迁移到新的数据集上进行检测,展现出强大的泛化能力。图像理解与描述生成:LLMDet能生成图像级别的详细描述(caption),包含丰富的细节信息,如对象类型、纹理、颜色、动作等,帮助模型更好地理解图像内容。提升多模态模型性能:作为视觉基础模型,与大型语言模型(LLM)结合,构建更强大的多模态模型,提升模型在视觉问答、图像描述等任务中的表现。

LLMDet的技术原理

数据集构建:用GroundingCap-1M数据集,其中每张图像都配有定位标签和详细的图像级描述。描述包含丰富的细节,帮助模型更好地理解图像中的对象及其关系。模型架构:由标准的开放词汇目标检测器和LLM组成。检测器负责提取图像特征和定位目标,LLM用这些特征生成图像级别的详细描述和区域级别的短语。协同训练:LLMDet基于两个阶段的训练实现与LLM的协同优化。首先,训练投影器(projector)将检测器的特征映射到LLM的输入空间。然后将检测器、投影器和LLM作为整体进行微调,训练目标包括标准的定位损失和描述生成损失。多任务学习:LLMDet引入图像级别和区域级别的描述生成任务,基于生成详细的描述丰富视觉特征,提升模型对图像的整体理解能力。多任务学习方式提升了检测性能,增强了模型的开放词汇能力。

LLMDet的项目地址

GitHub仓库:https://github.com/iSEE-Laboratory/LLMDetarXiv技术论文:https://arxiv.org/pdf/2501.18954

LLMDet的应用场景

智能安防:实时检测摄像头中的异常目标或行为,适应性强,无需重新训练。自动驾驶:帮助车辆识别道路上的各类障碍物和未见过的场景,提升安全性和可靠性。图像内容审核:自动审核图像内容,识别违规或不当内容,提高审核效率。智能相册管理:自动分类和标注照片,方便用户搜索和管理,支持多种未见过的类别。医疗影像分析:分析医学影像,快速识别异常区域,无需大量标注数据。
上一篇:VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸
相关资讯 更多+
  • LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
    LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

    LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升目标检测性能。LLMDet能收集包含图像、定位标签和详细图像级描述的数据集(GroundingCap-1M),用LLM生成的长描述丰富视觉特征,基于标准的定位损失和描述生成损失进行训练。

    AI教程资讯 2023-04-14

  • VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸
    VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸

    VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输出格式,可通过 GPU 加速处理,大幅提升效率。

    AI教程资讯 2023-04-14

  • FlashVideo – 字节联合港大推出的高分辨率视频生成框架
    FlashVideo – 字节联合港大推出的高分辨率视频生成框架

    FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。在第一阶段,FlashVideo 使用 50 亿参数的大型模型在低分辨率(270p)下生成与文本提示高度一致的内容和运动,基于参数高效微调(PEFT)技术确保计算效率。

    AI教程资讯 2023-04-14

  • ACE++ – 阿里通义推出的升级版图像生成与编辑模型
    ACE++ – 阿里通义推出的升级版图像生成与编辑模型

    ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。

    AI教程资讯 2023-04-14

最新录入 更多+
确定