当前位置: 网站首页 >AI教程资讯 >正文

DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统

来源:爱论文 时间:2025-02-03 21:30:47

DynaMem是什么

DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,如物体的添加和移除。当接收到新的RGBD观测时,DynaMem更新记忆,添加新物体并移除不再存在的点。DynaMem根据文本查询定位物体,在必要时导航至目标物体。DynaMem在动态物体处理上表现出色,成功率达到70%,显著高于传统系统。

DynaMem

DynaMem的主要功能

动态空间语义记忆:维护一个动态更新的特征点云,作为机器人的记忆系统,适应环境的变化。环境感知与更新:当机器人接收到新的RGBD(红绿蓝深度)观测时,DynaMem将新观测到的物体添加到记忆中,移除不再存在的点。文本查询定位:根据文本查询在环境中定位感兴趣的物体,用找到与文本查询最相似的点及最后被观测到的图像。导航与交互:如果文本被成功定位在环境中,导航机器人至目标物体;如果文本未能在环境中定位,探索环境寻找目标。动态物体处理:DynaMem擅长处理环境中的动态物体,只有极少数的试验因无法导航到动态物体而失败。价值地图探索:将机器人记忆投影到一个价值地图上,指导机器人探索环境。

DynaMem的技术原理

特征点云维护:维护一个特征点云作为机器人的记忆,点云随着环境的变化动态更新。RGBD观测融合:当机器人接收到新的RGBD观测时,DynaMem将观测融合到现有的记忆中,反映环境的最新状态。文本查询匹配:基于先进的视觉语言模型(VLMs)和多模态大型语言模型(mLLMs)理解和匹配文本查询,在记忆中定位物体。相似性评估:评估点云中的特征点与文本查询的相似性确定物体的位置。环境导航:如果文本查询成功定位到环境中的物体,指导机器人导航至该物体;如果未能定位,用价值地图引导机器人探索环境。

DynaMem的项目地址

项目官网:dynamem.github.ioarXiv技术论文:https://arxiv.org/pdf/2411.04999

DynaMem的应用场景

家庭自动化:在家庭环境中,帮助服务机器人识别、定位和操纵家具、电器或其他家用物品。工业自动化:在制造和物流领域,辅助机器人在生产线上进行物品的分拣、搬运和装配。仓库管理:在仓库环境中,帮助机器人进行库存管理,包括货物的定位、拣选和搬运,尤其是在货物频繁进出的情况下。灾难救援:在灾难救援场景中,帮助机器人在废墟中导航,寻找幸存者或重要物品。农业自动化:在农业领域,辅助机器人进行作物的监测、收割和搬运。
上一篇:MVPaint – 腾讯PCG联合多所高校共同推出的3D纹理生成框架
相关资讯 更多+
  • DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统
    DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统

    DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,如物体的添加和移除。当接收到新的RGBD观测时,DynaMem更新记忆,添加新物体并移除不再存在的点。

    AI教程资讯 2023-04-14

  • MVPaint – 腾讯PCG联合多所高校共同推出的3D纹理生成框架
    MVPaint – 腾讯PCG联合多所高校共同推出的3D纹理生成框架

    MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学共同推出的3D纹理生成框架,基于同步多视角扩散技术实现高分辨率、无缝且多视图一致的3D纹理生成。MVPaint包含三个核心模块:同步多视角生成(SMG)用在初始化纹理,空间感知3D修补(S3I)用在填补未观察区域,及UV细化(UVR)用在改善UV空间纹理质量。

    AI教程资讯 2023-04-14

  • LTX Video – Lightricks推出的开源AI视频生成模型
    LTX Video – Lightricks推出的开源AI视频生成模型

    LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,解决了早期视频生成模型的关键限制。LTX Video支持长视频制作,提供灵活性和控制力,适用于多种场景,包括游戏图形升级和电子商务广告变体制作。

    AI教程资讯 2023-04-14

  • BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力
    BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力

    BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。

    AI教程资讯 2023-04-14

最新录入 更多+
确定