EMMA – Waymo推出的端到端自动驾驶多模态模型-爱论文

EMMA是什么

EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型，能将原始相机传感器数据直接映射到驾驶特定输出，如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本，用预训练大型语言模型的世界知识，在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能，但存在局限性，如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展，提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA的主要功能

端到端运动规划：直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹。将轨迹转化为车辆特定的控制动作，如加速和转向。3D对象检测：用摄像头为主要传感器，检测和识别周围的物体，如车辆、行人和骑行者。道路图元素识别：识别和构建道路图，包括车道线、交通标志等关键道路元素。场景理解：理解整个场景的上下文，包括临时道路阻塞和其他影响驾驶的情况。多任务处理：在统一的语言空间中联合处理多种驾驶任务，用任务特定的提示生成输出。链式思维推理：基于链式思维推理提升模型的决策能力和可解释性，让模型在预测未来轨迹时能阐述其决策理由。

EMMA的技术原理

多模态大型语言模型（MLLMs）：基于预训练的MLLMs，如Gemini，模型在广泛的互联网规模数据上训练，拥有丰富的“世界知识”。自然语言表示：所有非传感器输入和输出（如导航指令、车辆状态、轨迹和3D位置）表示为自然语言文本。视觉问题回答（VQA）：将驾驶任务重新构想为VQA问题，基于Gemini的预训练能力，保留广泛的世界知识。自回归模型：用自回归Gemini模型处理交错的文本和视觉输入，生成文本输出。端到端训练：基于端到端训练，直接从传感器数据生成驾驶动作，消除模块间符号化接口的需求。

EMMA的项目地址

arXiv技术论文：https://arxiv.org/pdf/2410.23262

EMMA的应用场景

城市和郊区驾驶：EMMA能处理复杂的城市交通环境及郊区道路条件，提供实时的驾驶决策和轨迹规划。交通拥堵和复杂路口：在交通拥堵或多路口场景中，EMMA能进行有效的路径规划和决策，确保安全高效的导航。特殊天气和光照条件：EMMA能适应不同的天气和光照条件，如雨、雾或夜间驾驶，保持稳定的驾驶性能。施工区域和临时道路封闭：基于场景理解能力，EMMA能识别施工区域和临时道路封闭情况，做出相应的驾驶调整。紧急情况响应：在遇到紧急情况，如突然出现的障碍物或动物时，EMMA能迅速做出反应，采取避让或减速等措施。