当前位置: 网站首页 >AI教程资讯 >正文

Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

来源:爱论文 时间:2025-01-13 15:44:17

Aria-UI是什么

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

Aria-UI

Aria-UI的主要功能

GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI的项目地址

项目官网:https://ariaui.github.io/GitHub仓库:https://github.com/AriaUI/Aria-UIHuggingFace模型库:https://huggingface.co/Aria-UIarXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI的应用场景

自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。教育行业:自动操作代码编辑器,演示编程过程和结果。自动化办公:自动操作财务软件,生成报表,提高工作效率。
上一篇:TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
相关资讯 更多+
  • Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
    Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

    Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。

    AI教程资讯 2023-04-14

  • TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
    TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

    TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar基于扩散变换器(DiT)架构,基于引入alpha特定的token和基于LoRA的微调,实现RGB和alpha通道的联合生成,保持高度一致性。

    AI教程资讯 2023-04-14

  • STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
    STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

    STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强视频的空间细节和时间建模能力。STAR引入局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。

    AI教程资讯 2023-04-14

  • 星火人设 – 科大讯飞推出的专为情感交互设计的独立模型
    星火人设 – 科大讯飞推出的专为情感交互设计的独立模型

    星火人设是科大讯飞推出的专为情感交互而设计的独立模型(角色模拟API),具备人物设定、剧情演绎与语言风格等控制选项,支持模型精调。在规模C端用户的双盲体验测试中,星火人设的效果已处于行业领先。

    AI教程资讯 2023-04-14

最新录入 更多+
确定