EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型-爱论文

EMMA-X是什么

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型，在有根据的链式思维（CoT）推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集，包含3D空间运动、2D夹爪位置和有根据的推理，及推出一种新颖的轨迹分割策略，用夹爪的开合状态和机器人手臂的运动轨迹，增强有根据的任务推理和前瞻性空间推理，在真实世界的机器人任务中，尤其是在需要空间推理的任务上，取得显著的性能提升。

EMMA-X的主要功能

增强空间推理：基于预测夹爪的未来2D位置和3D运动计划，优化机器人的长期任务规划能力。具体化任务规划：模型结合视觉和任务推理，生成适应环境的行动策略，提高机器人执行复杂任务的能力。轨迹分割：用夹爪状态和机械臂运动轨迹，将操作序列分割成语义上相似的动作段，增强任务理解和运动规划。减少幻觉问题：结合视觉图像和任务推理，减少任务推理过程中的误差和幻觉。层次化规划数据生成：为每个操作段生成2D夹爪位置和3D空间运动，及具体化推理，支持机器人的决策过程。

EMMA-X的技术原理

层次化具身数据集：基于BridgeV2数据集构建，包含60,000条机器人操作轨迹，每条轨迹都附有详细的空间推理和任务推理信息。前瞻性空间推理（Look-ahead Spatial Reasoning）：模型预测夹爪的未来位置和运动计划，指导机器人的即时动作与长期目标对齐。轨迹分割策略：用HDBSCAN算法和自定义的距离度量方法，结合末端执行器的运动轨迹和夹爪状态，动态分割操作序列。Gemini生成任务推理：用Gemini模型为每个分段生成子任务和具体化推理，提高任务理解的准确性。EMMA-X架构：基于OpenVLA调整，链式思维训练增强空间推理和场景理解能力，预测下一步机器人的行动策略。

EMMA-X的项目地址

GitHub仓库：https://github.com/declare-lab/Emma-XHuggingFace模型库：https://huggingface.co/declare-lab/Emma-XarXiv技术论文：https://arxiv.org/pdf/2412.11974

EMMA-X的应用场景

制造业自动化：机器人用在组装、包装和质量控制等任务，提高生产线的效率和灵活性。物流和仓储：在仓库中，帮助机器人进行货物的拣选、搬运和分类，优化存储空间和物流流程。服务行业：在餐饮或酒店服务中，机器人完成复杂的任务，如烹饪辅助、房间清洁和物品递送。医疗辅助：在医疗领域，机器人执行精细的操作，如在手术中的辅助操作或在实验室中处理样本。家庭自动化：家庭服务机器人进行清洁、物品整理和其他家务活动，提高生活的便利性。