DINO-X – IDEA 研究院推出的通用视觉大模型-爱论文

DINO-X是什么

DINO-X是IDEA研究院推出的通用视觉大模型，具备开放世界对象检测与理解能力。支持文本、视觉和定制提示，能识别图像中的任何对象而无需用户提示。基于超过1亿样本的Grounding-100M数据集，DINO-X在COCO、LVIS-minival和LVIS-val基准测试中刷新性能记录。模型包含DINO-X Pro和DINO-X Edge两个版本，前者提供强大的感知能力，后者优化推理速度，适合边缘部署。DINO-X在长尾物体识别上表现出色，能广泛应用于自动驾驶、智能安防等领域，为产业升级带来新动力。

DINO-X的主要功能

开放世界对象检测与分割：检测和分割图像中的各种对象，即使是长尾类别中不常见的对象。短语定位：模型根据给定的文本短语在图像中定位对应的对象。视觉提示计数：基于视觉提示，如在图像中绘制边界框或点，计数特定对象的数量。姿态估计：预测图像中人物或特定类别的关键点，如人体姿态和手部姿态。无提示对象检测与识别：支持无需任何提示即可检测图像中的任何对象。密集区域字幕：为图像中的特定区域生成详细的描述性字幕。基于对象的问答：能回答关于图像中特定对象的问题。

DINO-X的技术原理

Transformer编码器-解码器架构：基于Transformer架构，用编码器提取图像特征，解码器进行对象检测和理解任务。多模态预训练：在大规模数据集Grounding-100M上预训练，DINO-X学习丰富的视觉和语言特征，增强开放词汇的检测能力。提示扩展：扩展输入选项，支持文本提示、视觉提示和定制提示，覆盖更广泛的检测场景。多感知头集成：集成多个感知头，如边界框头、分割头、关键点头和语言头，支持多种感知和理解任务。两阶段训练策略：第一阶段：联合训练文本提示检测、视觉提示检测和对象分割。第二阶段：冻结DINO-X主干，添加关键点头和语言头进行单独训练，扩展模型的细粒度感知和理解能力。知识蒸馏和FP16推理优化：模型基于知识蒸馏技术从Pro模型中提取知识，用FP16量化技术提高推理速度。语言头设计：DINO-X的语言头用冻结的DINO-X提取对象标记，与任务标记结合，用自回归方式生成响应输出。

DINO-X的项目地址

项目官网：deepdataspace.comarXiv技术论文：https://arxiv.org/pdf/2411.14347

DINO-X的应用场景

自动驾驶：在自动驾驶车辆中实时识别和理解道路环境，包括行人、车辆、交通标志等，提高安全性和反应能力。智能安防：在监控系统中，检测和识别可疑行为、入侵者或其他安全威胁，提高监控的智能化水平。工业检测：在制造业中，用在质量控制，检测产品缺陷，确保生产线的高效和产品质量。机器人视觉：集成到服务机器人和工业机器人中，帮助机器人更好地理解周围环境，提高其交互和操作能力。辅助视障人士：集成到助盲设备中，帮助视障人士更好地理解和导航周围环境。