当前位置: 网站首页 >AI教程资讯 >正文

Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架

来源:爱论文 时间:2025-01-28 19:21:13

Optimus-1是什么

Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更好地执行复杂任务。Optimus-1包含混合多模态记忆模块,由分层有向知识图(HDKG)和抽象多模态经验池(AMEP)组成,知识引导规划器和经验驱动反射器,显著提升在Minecraft等环境中的长期任务性能,接近人类水平。

Optimus-1

Optimus-1的主要功能

知识引导规划(Knowledge-Guided Planner):基于结构化知识(HDKG)生成可执行的子目标序列,规划和执行长期任务。经验驱动反思(Experience-Driven Reflector):基于历史经验(AMEP)评估当前任务状态,在必要时调整行动计划。行动控制(Action Controller):执行由规划器产生的子目标,与环境互动以完成任务。混合多模态记忆(Hybrid Multimodal Memory):结合HDKG和AMEP,存储和利用世界知识和历史经验,支持复杂决策和适应性学习。自我进化(Self-Evolution):基于“自由探索-教师指导”方法,无需参数更新能逐步提升记忆容量和任务执行能力。

Optimus-1的技术原理

分层有向知识图(HDKG):将世界知识(如物品合成规则)转化为图结构,节点代表对象,边代表对象间的关系(如合成关系)。基于图检索和拓扑排序,为智能体提供完成任务所需的材料和工具的知识。抽象多模态经验池(AMEP):动态总结和存储任务执行过程中的多模态信息(如环境、状态、计划、视觉帧等)。用MineCLIP模型计算视觉和子目标的相似性,存储相关性强的视觉记忆,为反思提供参考。知识引导规划器:结合视觉观察和HDKG中的知识,生成合理的子目标序列,指导行动控制器的行动。经验驱动反思器:定期激活,从AMEP中检索与当前子目标相关的多模态经验,评估当前任务状态,决定是继续执行、完成还是需要重新规划。行动控制器:根据子目标和当前观察,生成与环境互动所需的低级行动,如鼠标和键盘操作。

Optimus-1的项目地址

项目官网:cybertronagent.github.io/Optimus-1GitHub仓库:https://github.com/JiuTian-VL/Optimus-1arXiv技术论文:https://arxiv.org/pdf/2408.03615

Optimus-1的应用场景

游戏环境自动化:在复杂的游戏环境中,如Minecraft,Optimus-1自动化执行资源收集、建筑建造和探索等任务,提供沉浸式游戏体验。虚拟个人助理:在虚拟现实或增强现实应用中,可以作为用户的个人助理,帮助管理日程、提供信息查询服务,和自动化处理日常任务。家庭机器人助手:在智能家居系统中,指导家庭服务机器人执行清洁、安全监控和日常维护等长期任务,提高家居自动化水平。工业自动化与优化:在工业制造领域,优化生产流程,指导机器人自动完成复杂的装配线任务,提高生产效率和安全性。模拟训练与教育:在军事训练或医疗教育中,创建复杂的模拟环境,帮助学员模拟实践学习决策和操作技能。
上一篇:Fox-1 – TensorOpera 开源的小语言模型系列
相关资讯 更多+
  • Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架
    Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架

    Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更好地执行复杂任务。

    AI教程资讯 2023-04-14

  • Fox-1 – TensorOpera 开源的小语言模型系列
    Fox-1 – TensorOpera 开源的小语言模型系列

    Fox-1是TensorOpera推出的一系列小型语言模型(SLMs),包括Fox-1-1 6B和Fox-1-1 6B-Instruct-v0 1。Fox-1模型在3万亿个网络抓取的文档数据上预训练,在50亿个指令遵循和多轮对话数据上微调。Fox-1采用3阶段数据课程和深度架构设计,具有256K的扩展词汇量和GQA机制,提高了效率和性能。

    AI教程资讯 2023-04-14

  • Llama 3.3 – Meta AI推出的纯文本语言模型
    Llama 3.3 – Meta AI推出的纯文本语言模型

    Llama 3 3是Meta AI推出的70B 参数模型,大型多语言预训练语言模型,性能与40B参数的Llama 3 1相当。模型专为多语言对话优化,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

    AI教程资讯 2023-04-14

  • One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术
    One Shot, One Talk – 中科大联合香港理工推出的动态图像生成技术

    One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的身体动作。One Shot, One Talk是中国科学技术大学和香港理工大学的研究者推出的。

    AI教程资讯 2023-04-14

最新录入 更多+
确定