当前位置: 网站首页 >AI教程资讯 >正文

EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

来源:爱论文 时间:2025-01-22 16:23:34

EMMA-X是什么

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理,在真实世界的机器人任务中,尤其是在需要空间推理的任务上,取得显著的性能提升。

EMMA-X

EMMA-X的主要功能

增强空间推理:基于预测夹爪的未来2D位置和3D运动计划,优化机器人的长期任务规划能力。具体化任务规划:模型结合视觉和任务推理,生成适应环境的行动策略,提高机器人执行复杂任务的能力。轨迹分割:用夹爪状态和机械臂运动轨迹,将操作序列分割成语义上相似的动作段,增强任务理解和运动规划。减少幻觉问题:结合视觉图像和任务推理,减少任务推理过程中的误差和幻觉。层次化规划数据生成:为每个操作段生成2D夹爪位置和3D空间运动,及具体化推理,支持机器人的决策过程。

EMMA-X的技术原理

层次化具身数据集:基于BridgeV2数据集构建,包含60,000条机器人操作轨迹,每条轨迹都附有详细的空间推理和任务推理信息。前瞻性空间推理(Look-ahead Spatial Reasoning):模型预测夹爪的未来位置和运动计划,指导机器人的即时动作与长期目标对齐。轨迹分割策略:用HDBSCAN算法和自定义的距离度量方法,结合末端执行器的运动轨迹和夹爪状态,动态分割操作序列。Gemini生成任务推理:用Gemini模型为每个分段生成子任务和具体化推理,提高任务理解的准确性。EMMA-X架构:基于OpenVLA调整,链式思维训练增强空间推理和场景理解能力,预测下一步机器人的行动策略。

EMMA-X的项目地址

GitHub仓库:https://github.com/declare-lab/Emma-XHuggingFace模型库:https://huggingface.co/declare-lab/Emma-XarXiv技术论文:https://arxiv.org/pdf/2412.11974

EMMA-X的应用场景

制造业自动化:机器人用在组装、包装和质量控制等任务,提高生产线的效率和灵活性。物流和仓储:在仓库中,帮助机器人进行货物的拣选、搬运和分类,优化存储空间和物流流程。服务行业:在餐饮或酒店服务中,机器人完成复杂的任务,如烹饪辅助、房间清洁和物品递送。医疗辅助:在医疗领域,机器人执行精细的操作,如在手术中的辅助操作或在实验室中处理样本。家庭自动化:家庭服务机器人进行清洁、物品整理和其他家务活动,提高生活的便利性。
上一篇:WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码
相关资讯 更多+
  • EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型
    EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

    EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理。

    AI教程资讯 2023-04-14

  • WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码
    WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码

    WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且兼容多种技术栈,如React、Vue等。

    AI教程资讯 2023-04-14

  • UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架
    UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

    UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同

    AI教程资讯 2023-04-14

  • X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式
    X-AnyLabeling – AI图像标注工具,支持图像和视频多样化标注样式

    X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供图像级与对象级标签分类。软件支持主流深度学习框架的数据格式导入导出,具备跨平台兼容性,支持CPU和GPU推理。

    AI教程资讯 2023-04-14

最新录入 更多+
确定