当前位置: 网站首页 >AI教程资讯 >正文

Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

来源:爱论文 时间:2025-04-12 13:46:40

Gemini Robotics是什么

Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。Gemini Robotics 是视觉-语言-动作(VLA)模型,支持直接控制机器人完成复杂的操作任务,表现出对物体类型和位置变化的鲁棒性,执行开放词汇指令。基于进一步的微调,Gemini Robotics 能解决长时域、高灵活性的任务(如折纸或玩牌),快速适应新任务和机器人形态。

Gemini Robotics

Gemini Robotics的主要功能

智能对话与问答复杂任务的执行:高灵活性任务:如折纸、玩牌、使用工具等。长时域任务:如打包午餐盒、制作三明治等多步骤任务。精细操作:如使用镊子夹取小物体、拧紧瓶盖等。强大的视觉和语言理解能力:视觉理解:识别和定位场景中的物体,支持多视角理解、3D 空间推理和物体检测。语言理解:理解自然语言指令,执行开放词汇任务。环境适应与泛化能力:视觉泛化:对场景中的背景、光照和干扰物体变化具有鲁棒性。动作泛化:适应物体位置变化和不同物体实例的操作。指令泛化:理解指令的不同表达方式(如不同语言、带有拼写错误的指令)。

Gemini Robotics的技术原理

Gemini 2.0 基础模型:基于 Gemini 2.0 扩展。Gemini 2.0 为 Gemini Robotics 提供强大的视觉和语言理解能力。具身推理:Gemini Robotics-ER 是 Gemini Robotics 的扩展版本,专注于具身推理能力。支持理解物理世界中的三维空间、物体关系和运动轨迹。视觉-语言-动作(VLA)模型:视觉输入:通过摄像头获取场景图像,识别物体和环境。语言指令:理解自然语言指令,将其转化为具体的机器人动作。动作输出:生成机器人的动作指令,实现复杂任务的执行。数据驱动的训练:机器人动作数据:基于真实机器人的操作数据,学习如何执行各种任务。非机器人数据:如网络图像、文本、视频等,提供丰富的背景知识和泛化能力。架构设计:云端 VLA 主干网络:负责处理复杂的视觉和语言推理任务。本地动作解码器:运行在机器人本地,负责实时生成动作指令,确保低延迟和高响应性。

Gemini Robotics的项目地址

项目官网:https://deepmind.google/discover/blog/gemini-robotics技术论文:https://storage.googleapis.com/deepmind-media/gemini-robotics

Gemini Robotics的应用场景

工业制造:用在复杂装配、质量检测和修复,提高生产效率和精度。物流仓储:实现货物分拣、包装和装卸自动化,提升物流效率。家庭服务:协助家务劳动,如整理、清洁和照顾老年人或残疾人。医疗健康:辅助康复训练和手术操作,支持医疗流程。教育科研:作为教育工具和科研助手,支持教学和实验操作。
上一篇:PP-TableMagic – 百度飞桨团队开源的表格识别工具
相关资讯 更多+
  • Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
    Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型

    Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2 0 的机器人项目,将大型多模态模型的能力引入物理世界。项目包含两个主要模型:Gemini Robotics-ER 和 Gemini Robotics。Gemini Robotics-ER 是增强版的视觉-语言模型(VLM),具备强大的具身推理能力,支持理解三维空间、物体检测、指向、轨迹和抓取预测等任务。

    AI教程资讯 2023-04-14

  • PP-TableMagic – 百度飞桨团队开源的表格识别工具
    PP-TableMagic – 百度飞桨团队开源的表格识别工具

    PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-LCNet 和业界首个开源单元格检测模型 RT-DETR,及强大的表格结构识别模型 SLANeXt,结合三阶段预训练策略,提升表格识别的精度和效率。

    AI教程资讯 2023-04-14

  • Gemini 2.0 Flash – Google推出的多模态 AI 模型
    Gemini 2.0 Flash – Google推出的多模态 AI 模型

    Gemini 2 0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,支持多轮对话式的图像编辑,保持上下文连贯性。模型擅长将文本与图像结合,例如为故事生成连贯的插图、根据对话修改图像风格,用世界知识生成更准确的图像(如食谱插图)。Gemini 2 0 Flash在长文本渲染方面表现出色,适用于广告、社交媒体或邀请函等场景。

    AI教程资讯 2023-04-14

  • TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本
    TokenSwift – 超长文本生成加速框架,90分钟内生成10万Token文本

    TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定