UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架-爱论文

UniAct是什么

UniAct 是新型的具身基础模型框架，解决不同机器人之间行为异构性的问题。通过学习通用行为，捕捉不同机器人共享的原子行为特征，消除因物理形态和控制接口差异导致的行为异构性。UniAct 的架构包括通用行为提取器、通用行为空间和异构解码器。通用行为提取器基于视觉语言模型，通过观察和任务目标提取通用行为；通用行为空间以向量量化码本形式实现，每个向量代表一种原子行为；异构解码器将通用行为翻译为特定机器人的控制信号。

UniAct的主要功能

通用动作编码：UniAct将不同机器人的原子行为（如“移动到目标位置”或“避开障碍物”）通过向量量化形成一个通用的codebook，每个token代表一种可跨平台共享的通用技能。轻量化架构与高效性能：UniAct-0.5B模型仅需0.5亿参数，在真实与模拟环境的任务测试中，表现已经超过了参数达到14亿的OpenVLA模型。快速适应新环境和机器人：UniAct仅需50条专用示教数据即可完成模型在新环境中的微调，能快速适应新机器人和控制接口。通过添加新的轻量级解码器，可以轻松扩展到新的机器人平台。跨领域数据利用：UniAct通过通用行为空间，能更好地利用跨领域的数据进行训练，在不同机器人和环境中实现更高效的泛化。一致的行为模式：在不同的部署场景和机器人类型上，同一个通用动作可以表现出一致的行为模式。为具身智能体的控制提供了新的便捷方式，操作人员只需从codebook中挑选相应的通用动作，即可指挥不同类型的机器人完成任务。

UniAct的技术原理

通用动作空间（Universal Action Space）：UniAct通过向量量化（Vector Quantization）构建了一个离散的通用动作空间。这个空间被设计为一个向量化的码本（codebook），每个向量嵌入代表一种通用的原子行为。这些原子行为是不同机器人在不同情境下共享的基本行为模式，例如“移动到目标位置”或“避开障碍物”。通过这种方式，UniAct能将不同机器人的动作统一表示，消除动作空间的异构性。通用动作提取器（Universal Action Extractor）：UniAct基于视觉语言模型（VLM）的通用动作提取器来识别和提取通用动作。提取器在给定观察结果和任务目标的情况下，输出选择通用动作的概率。通过这种方式，UniAct能从复杂的视觉和语言输入中提取出与任务进展直接相关的通用动作，不仅是识别观察到的变化。这种提取方法避免了外部因素（如环境变化或人为干预）的干扰，确保了动作空间的纯净性和一致性。异质解码器（Heterogeneous Decoders）：为了将通用动作翻译为特定机器人的可执行命令，UniAct引入了异质解码器。这些解码器针对不同的机器人平台进行设计，能够根据机器人的具体特征（如关节力矩或摄像头视角）将通用动作转换为具体的控制信号。通过这种方式，UniAct能够灵活适配不同类型的机器人，实现高效的跨平台控制。轻量化架构与高效训练：UniAct采用了轻量化的模型架构，即使在低参数设置下也能保持良好的性能。UniAct通过行为克隆损失进行训练，并根据动作标签的性质选择合适的损失函数（如离散动作的交叉熵和连续动作的均方误差）。这种高效的训练方式使得UniAct能快速适应新环境和新机器人。

UniAct的项目地址

项目官网：https://2toinf.github.io/UniAct/Github仓库：https://github.com/2toinf/UniActarXiv技术论文：https://arxiv.org/pdf/2501.10105

UniAct的应用场景

自动驾驶与智能交通：UniAct的技术原理和架构也适用于自动驾驶领域。通过学习通用的驾驶行为模式，UniAct能为自动驾驶系统提供更高效的动作规划和控制。医疗机器人：UniAct可以应用于医疗机器人领域，例如辅助康复机器人或手术机器人。通过通用动作空间，医疗机器人能更灵活地适应不同的患者需求和手术场景。工业自动化：在工业自动化领域，UniAct可以用于控制多种工业机器人，实现高效的生产流程优化。通过快速适应不同的机器人平台和任务需求，UniAct能显著提高工业生产的灵活性和效率。智能家居与服务机器人：UniAct可以应用于智能家居和家庭服务机器人领域。通过通用动作空间，服务机器人能更自然地与人类交互，完成各种家务任务。