当前位置: 网站首页 >AI教程资讯 >正文

DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集

来源:爱论文 时间:2025-01-26 16:32:45

DrivingDojo是什么

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。DrivingDojo定义了动作指令跟随(AIF)基准,用在评估世界模型在执行动作控制的未来预测方面的能力。

DrivingDojo

DrivingDojo的主要功能

交互式世界模型训练:DrivingDojo提供一个平台,用在训练理解和模拟复杂驾驶动态的交互式世界模型。动作指令跟随(AIF):数据集定义AIF基准,评估世界模型在遵循动作指令生成未来预测的能力。多样化驾驶操作:基于DrivingDojo-Action子集,模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。多智能体交互:用DrivingDojo-Interplay子集,模型能理解和预测车辆与其他道路使用者之间的复杂交互。开放世界知识:用DrivingDojo-Open子集,模型学习处理开放世界中的罕见事件和长尾场景。视频生成与预测:模型基于初始帧和动作指令生成未来的视频,模拟和预测驾驶场景。

DrivingDojo的技术原理

数据收集:用美团无人车团队的自动驾驶车辆平台收集视频数据,。数据策划:从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。动作编码:将驾驶动作(如加速、制动、转向)编码为模型能理解的格式,方便在视频生成中使用。视频生成模型:基于如Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型。动作指令跟随(AIF):比较生成视频与输入动作指令的一致性,评估模型的预测准确性。评估指标:用FID(Frechet Inception Distance)和FVD(Frechet Video Distance)等指标评估生成视频的视觉质量,用AIF错误评估动作指令的跟随能力。

DrivingDojo的项目地址

项目官网:drivingdojo.github.ioGitHub仓库:https://github.com/Robertwyq/DrivingdojoHuggingFace模型库:https://huggingface.co/datasets/Yuqi1997/DrivingDojoarXiv技术论文:https://arxiv.org/pdf/2410.10738

DrivingDojo的应用场景

自动驾驶算法开发:研究人员开发和测试自动驾驶车辆的感知、预测和决策算法。世界模型训练:数据集用在训练模拟真实世界驾驶环境的交互式世界模型,模型能预测未来的状态和可能的事件。多智能体交互模拟:模拟车辆与其他道路使用者(如行人、自行车、其他车辆)之间的交互,优化自动驾驶车辆的交互策略。罕见事件和长尾场景处理:训练模型识别和响应罕见事件,如动物突然横穿道路或道路上的障碍物,提高自动驾驶系统的安全性。虚拟测试和验证:在虚拟环境中测试自动驾驶系统,减少实车测试的成本和风险,加速开发流程。
上一篇:FineWeb 2 – Hugging Face推出的多语言预训练数据集
相关资讯 更多+
  • DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集
    DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集

    DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。

    AI教程资讯 2023-04-14

  • FineWeb 2 – Hugging Face推出的多语言预训练数据集
    FineWeb 2 – Hugging Face推出的多语言预训练数据集

    FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII匿名化,适应不同语言的特点。FineWeb 2数据集支持广泛的NLP任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。

    AI教程资讯 2023-04-14

  • Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
    Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

    Gemini 2 0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2 0 Flash是2 0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1 5 Pro快两倍,关键性能指标超过 1 5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成响应,具备多语言音频输出能力。

    AI教程资讯 2023-04-14

  • 书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列
    书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列

    书生·万象InternVL 2 5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2 0的基础上进行显著增强,特别是在训练和测试策略及数据质量方面。

    AI教程资讯 2023-04-14

最新录入 更多+
确定