AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架-爱论文

AGUVIS是什么

AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架，专为自主GUI智能体设计，能在各种平台（如网页、桌面、移动设备）上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联，采用一致的动作空间实现跨平台泛化。AGUVIS结合显式规划和推理，增强代理在复杂数字环境中的自主导航和交互能力。框架通过大规模数据集和两阶段训练流程，实现了在离线和在线场景中超越现有方法的性能，成为首个不依赖外部闭源模型独立完成任务的纯视觉GUI代理。

AGUVIS的主要功能

跨平台自主GUI交互：在不同平台（如网站、桌面和移动设备）上自主执行GUI任务。图像观察与自然语言指令关联：将自然语言指令映射到视觉界面元素，实现基于图像的交互。显式规划与推理：集成规划和推理能力，让代理够分析环境并生成有效的操作步骤。大规模数据集构建：创建包含多模态推理和基础的大规模GUI代理轨迹数据集。

AGUVIS的技术原理

纯视觉框架：采用纯视觉方法，将界面观察统一为图像，将指令基础到图像坐标，提高跨环境的泛化能力。统一动作空间：用标准化的动作空间和插件系统，在不同平台间进行一致的学习与交互。视觉-语言模型（VLM）：VLM作为基础，如Qwen2-VL，处理任意分辨率的高分辨率图像，并动态转换为视觉令牌。两阶段训练范式：第一阶段：基础训练：专注于使模型理解和与单个GUI截图中的对象交互。第二阶段：规划与推理训练：在基础训练的基础上，引入更复杂的决策制定和推理过程，基于多样化的代理轨迹数据训练模型。内省式独白（Inner Monologue）：在训练中生成详细的内省式独白，包含观察描述、思考和低级动作指令，模拟代理的思考过程、提升其规划能力。插件系统：为不能直接映射到现有动作空间的动作提供灵活性，让模型能够适应新环境和任务。

AGUVIS的项目地址

项目官网：aguvis-projectGitHub仓库：https://github.com/xlang-ai/aguvisarXiv技术论文：https://arxiv.org/pdf/2412.04454

AGUVIS的应用场景

自动化测试：在软件开发中自动化测试各种图形用户界面，包括网站、桌面应用和移动应用，确保软件的稳定性和可靠性。虚拟助手：作为虚拟助手，帮助用户自动化日常的计算机任务，如日程管理、邮件处理和数据输入。业务流程自动化：在企业中自动化执行特定的业务流程，如财务报告生成、客户数据管理等，提高工作效率。教育和培训：创建交互式教育软件，模拟真实世界的GUI操作，用于教学和培训目的。客户服务自动化：在客户服务领域自动处理客户请求，基于GUI界面提供快速响应和解决方案。