Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型-爱论文

Aria-UI是什么

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面（GUI）定位任务设计的大型多模态模型。基于纯视觉方法，不依赖于HTML或AXTree等辅助输入，用大规模、多样化的数据合成流程，从Common Crawl和公开数据中生成高质量的元素描述和指令样本，适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息，用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中，Aria-UI均取得优异的性能，展现出强大的零样本泛化能力和跨平台适用性，成为通用GUI定位任务的有力解决方案。

Aria-UI的主要功能

GUI元素定位：将语言指令准确地映射到GUI中的目标元素，实现元素的精确定位，为后续的交互操作提供基础。多模态输入处理：处理包括GUI图像、文本指令、动作历史等多种模态的输入信息，充分理解和利用多模态数据中的丰富信息。多样化指令适应：基于大规模、多样化的数据合成流程生成的多样化指令样本，有效适应不同环境下的各种指令表达方式。动态上下文理解：整合动态动作历史信息，用文本或文本-图像交错格式，在多步任务场景中理解当前的动态上下文，为准确的元素定位提供重要参考。高分辨率图像处理：支持高达3920×2940的图像分辨率，将图像分割成小块处理，显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法：采用纯视觉方法，直接从GUI图像中提取视觉特征，用视觉信息理解和定位目标元素。多模态MoE模型：基于Aria多模态MoE（Mixture of Experts）模型构建，具有3.9B激活参数，擅长处理多模态数据。数据合成与训练：基于两阶段的数据合成流程，从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本，覆盖Web、桌面和移动三大GUI环境，为模型训练提供大量、多样化的训练数据，增强模型对不同指令和元素的识别能力。上下文感知数据扩展：用公开的代理轨迹数据模拟具有上下文的定位任务，构建文本动作历史和文本-图像交错历史两种上下文设置，基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令，让模型在动态环境中更好地理解和执行任务。超分辨率支持：将图像分割成小块并进行处理，支持高达3920×2940的图像分辨率，保持图像的细节和准确性。

Aria-UI的项目地址

项目官网：https://ariaui.github.io/GitHub仓库：https://github.com/AriaUI/Aria-UIHuggingFace模型库：https://huggingface.co/Aria-UIarXiv技术论文：https://arxiv.org/pdf/2412.16256