当前位置: 网站首页 >AI教程资讯 >正文

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

来源:爱论文 时间:2025-03-21 15:46:21

HMA是什么

HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用不同机器人实体、领域和任务中的观测和动作序列,结合掩码自回归技术生成视频预测。HMA支持离散和连续两种变体,分别用在快速生成和高保真度生成,处理动作空间的异构性,包括不同的动作频率、维度和动作空间,基于模块化网络架构实现高效的实时交互。HMA在机器人学习中具有广泛的应用前景,包括视频模拟、策略评估、合成数据生成和作为模仿策略使用,在扩展性和实时性方面表现出色。

HMA

HMA的主要功能

视频模拟:生成高质量的视频序列,模拟机器人在不同环境中的动作效果,用在虚拟环境中的交互和测试。策略评估:作为高保真度的模拟器,评估机器人策略的性能,预测策略在真实环境中的表现。合成数据生成:生成大量的合成数据,增强机器人的训练数据集,提升策略的泛化能力。模仿策略:直接作为模仿学习的策略,预测机器人在给定观测下的动作。

HMA的技术原理

异构预训练:数据来源:用来自不同机器人实体、任务和领域的大量观测和动作序列数据进行预训练,涵盖从简单到复杂的动作空间。动作异构性处理:基于为每个领域设计特定的动作编码器和解码器,将不同动作空间映射到共享的潜在空间中,处理动作频率、维度和动作空间的异构性。模块化架构:网络架构包括多个动作输入模块(“stem”)和动作输出模块(“head”),及共享的核心时空变换器(“trunk”),支持高效预训练和灵活扩展。掩码自回归:掩码目标:在训练时,模型基于掩码自编码目标随机掩码部分标记,并基于未掩码的标记预测掩码部分,学习序列的联合分布。自回归生成:在推理时,模型逐步取消掩码,生成未来的视频帧和动作序列。既高效又能保持高生成质量。两种变体:HMA支持离散变体(生成矢量量化标记)和连续变体(生成软标记),分别用在快速生成和高保真度生成。

HMA的项目地址

项目官网:https://liruiw.github.io/hma/GitHub仓库:https://github.com/liruiw/HMAHuggingFace模型库:https://huggingface.co/liruiw/hma-base-discarXiv技术论文:https://arxiv.org/pdf/2502.04296在线体验Demo:https://huggingface.co/spaces/liruiw/hma

HMA的应用场景

实时视频模拟:快速生成机器人在不同环境中的动作视频,用在虚拟交互测试,验证策略效果,节省实际部署成本。策略评估:作为高保真模拟器,评估机器人策略性能,预测策略在真实环境中的表现,辅助策略优化。合成数据生成:生成大量合成数据,扩充训练数据集,提升策略泛化能力,尤其在数据稀缺时效果显著。模仿学习:直接作为模仿策略,根据当前观测预测机器人动作,快速响应环境变化,提高任务执行效率。长期规划与控制:HMA支持生成长序列的视频和动作预测,助力机器人进行长期规划和模型预测控制,提升复杂任务的完成率。
上一篇:DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具
相关资讯 更多+
  • HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
    HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

    HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用不同机器人实体、领域和任务中的观测和动作序列,结合掩码自回归技术生成视频预测。

    AI教程资讯 2023-04-14

  • DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具
    DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具

    DeepRant(中文名:鲸喷)是专为游戏玩家设计的多语言快捷翻译工具。DeepRant能够帮助玩家在国际服务器中快速进行文字交流,消除语言障碍。玩家在游戏中选中文字后按下快捷键,翻译结果自动复制到剪贴板,方便在游戏中直接使用。

    AI教程资讯 2023-04-14

  • StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像
    StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像

    StochSync(Stochastic Diffusion Synchronization)是创新的图像生成技术,专门用于在复杂空间(如360°全景图或3D表面纹理)中生成高质量图像。结合了扩散同步(DS)和分数蒸馏采样(SDS)的优势,通过在扩散模型的逆生成过程中引入最大随机性,兼顾图像细节与连贯性。

    AI教程资讯 2023-04-14

  • Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
    Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架

    Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定