当前位置: 网站首页 >AI教程资讯 >正文

GO-1 – 智元机器人推出的首个通用具身基座模型

来源:爱论文 时间:2025-04-10 17:12:15

GO-1是什么

GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。VLM借助海量互联网图文数据,赋予模型通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)通过大量跨本体和人类操作视频数据,获得通用的动作理解能力;Action Expert(动作专家)则基于百万真机数据,实现精细的动作执行。

GO-1(Genie Operator-1)

GO-1的主要功能

人类视频学习:通过分析大量人类操作视频数据,模型能学习并理解真实世界中的动作知识,快速适应新任务。小样本快速泛化:在极少数据或零样本的情况下,GO-1能快速泛化到新场景和任务,降低了具身智能的应用门槛。一脑多形,跨本体应用:GO-1能灵活部署到不同类型的机器人本体上,支持多种机器人形态,展现出极高的通用性和灵活性。持续进化:在实际使用中,GO-1能不断学习和优化自身性能,通过数据回流系统从实际执行中遇到的问题数据中持续进化,越用越聪明。高效动作执行:基于百万级真机数据训练的Action Expert(动作专家),模型具备精细且高效的动作执行能力。

GO-1的计算原理

VLM(多模态大模型):VLM通过深度挖掘海量互联网图文数据,赋予模型卓越的通用场景感知和语言理解能力。能准确识别理解图像中的信息,同时与文本数据进行高效融合,实现对复杂场景的全面理解。MoE(混合专家系统):MoE系统进一步增强了模型的动作理解与执行能力。其中:Latent Planner(隐式规划器):通过分析大量跨本体和人类操作视频数据,掌握了通用的动作规划逻辑。Action Expert(动作专家):依托百万级真机数据训练,具备精细且高效的动作执行能力。

GO-1的项目地址

项目官网:https://agibot-world.com/blog/go1技术论文:https://agibot-world.com/blog/agibot_go1

GO-1的应用场景

零售服务:在零售环境中,GO-1可以被部署为服务机器人,提供顾客引导、商品查询、结账辅助等服务。接待与咨询:在酒店、餐厅或办公楼等场所,GO-1可以作为接待机器人,提供信息咨询、预订确认、方向指引等服务。生产线辅助:在制造业中,GO-1可以协助完成装配线上的重复性任务,如零件搬运、组装等。家务助手:在家庭环境中,GO-1可以作为家务助手,帮助完成清洁、整理等日常家务。科研探索:GO-1可以用于科研领域,如在极端环境中进行样本采集和数据分析。
上一篇:Gemini Embedding – 谷歌推出的文本嵌入模型
相关资讯 更多+
  • GO-1 – 智元机器人推出的首个通用具身基座模型
    GO-1 – 智元机器人推出的首个通用具身基座模型

    GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。

    AI教程资讯 2023-04-14

  • Gemini Embedding – 谷歌推出的文本嵌入模型
    Gemini Embedding – 谷歌推出的文本嵌入模型

    Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练,具备强大的语言理解能力,支持超过100种语言,在多语言文本嵌入基准测试(MTEB)中排名第一。

    AI教程资讯 2023-04-14

  • DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型
    DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

    DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同模态间的信息转换与对齐,基于统一生成模型学习的双向映射,以非配对数据进行领域适配训练,无需大量标注数据。

    AI教程资讯 2023-04-14

  • IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
    IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

    IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

    AI教程资讯 2023-04-14

最新录入 更多+
确定