当前位置: 网站首页 >AI教程资讯 >正文

ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

来源:爱论文 时间:2025-01-31 19:52:30

ShowUI是什么

ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集,用256K数据实现75.1%的零样本截图定位准确率,训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。

ShowUI

ShowUI的主要功能

UI引导的视觉令牌选择:将屏幕截图构建为UI连接图,自适应地识别冗余关系,在自注意力模块中作为选择令牌的标准,减少计算成本。交错视觉-语言-行动流:灵活地统一GUI任务中的多样化需求,有效管理视觉-行动历史,提高训练效率。小规模高质量GUI指令跟随数据集:基于精心策划数据和采用重采样策略解决数据类型不平衡的问题,提高模型的准确性和效率。零样本截图定位:在没有额外训练的情况下,直接对屏幕截图进行理解和操作的能力。GUI自动化:自动化执行GUI任务,如点击、输入等,提高人机交互效率。

ShowUI的技术原理

UI引导的视觉令牌选择:将屏幕截图分割成规则的补丁(patches),每个补丁作为一个节点。识别具有相同RGB值的相邻补丁,构建UI连接图,将视觉冗余区域组合起来。在自注意力模块中,基于UI连接图选择性地处理视觉令牌,减少计算量。交错视觉-语言-行动流:结构化GUI动作,以JSON格式表示,统一不同设备上的动作。基于交替处理视觉、语言和行动数据,管理复杂的交互历史。在训练中,用多轮对话方式,提高数据利用效率。数据策划和重采样策略:精心策划和选择高质量的训练数据,而不是简单地聚合所有可用数据源。基于重采样策略,解决不同设备和任务类型之间的数据不平衡问题。高效处理高分辨率UI截图:针对高分辨率UI截图,优化模型以有效处理长令牌序列,减少计算成本。模型架构:基于Qwen2-VL-2B模型,整合视觉编码器和语言模型,处理视觉和文本数据。基于特定的数据食谱和训练策略,提高模型在GUI任务中的性能。

ShowUI的项目地址

GitHub仓库:https://github.com/showlab/ShowUIHuggingFace模型库:https://huggingface.co/datasets/showlab/ShowUI-desktop-8KarXiv技术论文:https://arxiv.org/pdf/2411.17465在线体验Demo:https://huggingface.co/spaces/showlab/ShowUI

ShowUI的应用场景

网页自动化:自动执行网页上的点击、输入、滚动等操作,用在自动化测试、数据抓取或模拟用户行为。移动应用测试:在移动应用中自动化执行各种用户交互,如滑动、点击、填写表单等,进行应用功能测试。桌面软件自动化:自动化桌面软件中的重复性任务,如文件管理、数据输入、设置调整等。虚拟助手:作为虚拟助手的一部分,根据用户的自然语言指令执行特定的GUI操作。游戏自动化:在支持自动化脚本的游戏中,自动执行角色移动、物品拾取、战斗等操作。
上一篇:NVLM – 英伟达推出的多模态大型语言模型
相关资讯 更多+
  • ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
    ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

    ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。

    AI教程资讯 2023-04-14

  • NVLM – 英伟达推出的多模态大型语言模型
    NVLM – 英伟达推出的多模态大型语言模型

    NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1 0家族包括三种架构:仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。

    AI教程资讯 2023-04-14

  • Promptriever – 信息检索模型,支持自然语言提示响应用户搜索需求
    Promptriever – 信息检索模型,支持自然语言提示响应用户搜索需求

    Promptriever 是约翰斯·霍普金斯大学和Samaya AI联合推出的新型检索模型,能像语言模型一样接受自然语言提示,用直观的方式响应用户的搜索需求。Promptriever 基于 MS MARCO 数据集的指令训练集进行训练,不仅在标准检索任务上表现出色,还能更有效地遵循详细指令,提高对查询的鲁棒性和检索性能。

    AI教程资讯 2023-04-14

  • LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型
    LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

    LongLLaVA是多模态大型语言模型(MLLM),基于混合架构结合Mamba和Transformer模块,能高效处理大量图像,特别擅长视频理解和高分辨率图像分析。LongLLaVA在单个A100 80GB GPU上能处理近千张图像,同时保持高性能和低内存消耗,在多模态长上下文理解任务中展现出色能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定