当前位置: 网站首页 >AI教程资讯 >正文

EMMA – Waymo推出的端到端自动驾驶多模态模型

来源:爱论文 时间:2025-02-12 18:00:28

EMMA是什么

EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能,但存在局限性,如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展,提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA

EMMA的主要功能

端到端运动规划:直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹。将轨迹转化为车辆特定的控制动作,如加速和转向。3D对象检测:用摄像头为主要传感器,检测和识别周围的物体,如车辆、行人和骑行者。道路图元素识别:识别和构建道路图,包括车道线、交通标志等关键道路元素。场景理解:理解整个场景的上下文,包括临时道路阻塞和其他影响驾驶的情况。多任务处理:在统一的语言空间中联合处理多种驾驶任务,用任务特定的提示生成输出。链式思维推理:基于链式思维推理提升模型的决策能力和可解释性,让模型在预测未来轨迹时能阐述其决策理由。

EMMA的技术原理

多模态大型语言模型(MLLMs):基于预训练的MLLMs,如Gemini,模型在广泛的互联网规模数据上训练,拥有丰富的“世界知识”。自然语言表示:所有非传感器输入和输出(如导航指令、车辆状态、轨迹和3D位置)表示为自然语言文本。视觉问题回答(VQA):将驾驶任务重新构想为VQA问题,基于Gemini的预训练能力,保留广泛的世界知识。自回归模型:用自回归Gemini模型处理交错的文本和视觉输入,生成文本输出。端到端训练:基于端到端训练,直接从传感器数据生成驾驶动作,消除模块间符号化接口的需求。

EMMA的项目地址

arXiv技术论文:https://arxiv.org/pdf/2410.23262

EMMA的应用场景

城市和郊区驾驶:EMMA能处理复杂的城市交通环境及郊区道路条件,提供实时的驾驶决策和轨迹规划。交通拥堵和复杂路口:在交通拥堵或多路口场景中,EMMA能进行有效的路径规划和决策,确保安全高效的导航。特殊天气和光照条件:EMMA能适应不同的天气和光照条件,如雨、雾或夜间驾驶,保持稳定的驾驶性能。施工区域和临时道路封闭:基于场景理解能力,EMMA能识别施工区域和临时道路封闭情况,做出相应的驾驶调整。紧急情况响应:在遇到紧急情况,如突然出现的障碍物或动物时,EMMA能迅速做出反应,采取避让或减速等措施。
上一篇:DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架
相关资讯 更多+
  • EMMA – Waymo推出的端到端自动驾驶多模态模型
    EMMA – Waymo推出的端到端自动驾驶多模态模型

    EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。

    AI教程资讯 2023-04-14

  • DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架
    DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架

    DreamVideo-2是创新的零样本视频定制框架,是复旦大学和阿里巴巴集团等机构联合推出。DreamVideo-2能根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。框架用参考注意力机制学习主题外观,基于从界定框导出的二值掩码控制运动轨迹,实现精确的运动控制。

    AI教程资讯 2023-04-14

  • NotebookMLX – 将PDF文档转换成音频博客开源版的NotebookLM
    NotebookMLX – 将PDF文档转换成音频博客开源版的NotebookLM

    NotebookMLX是开源版本的NotebookLM,集成NotebookLlama的功能,能将PDF文档转换成易于理解和分享的音频播客形式。项目基于MLX技术实现自然语言处理功能,包括PDF预处理、制作播客文本、文本重写及文本到语音转换,让内容的传播和消费更加便捷。

    AI教程资讯 2023-04-14

  • HOVER – 英伟达推出的通用人形机器人功能控制器1.5M小模型
    HOVER – 英伟达推出的通用人形机器人功能控制器1.5M小模型

    HOVER是英伟达推出的1 5M小模型,全称为“Humanoid Versatile Controller”,即人形机器人的多功能全身神经通用控制器。模型用150万参数实现对机器人复杂动作的控制,能适应多样任务如导航、桌面操作和移动操作等,每种任务需要独特的控制模式。

    AI教程资讯 2023-04-14

最新录入 更多+
确定