当前位置: 网站首页 >AI教程资讯 >正文

OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据

来源:爱论文 时间:2025-02-14 17:37:12

OmniParser是什么

OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。

OmniParser

OmniParser的主要功能

解析UI截图:OmniParser将用户界面的屏幕截图解析成结构化的元素,包括可交互图标和文本。识别可交互区域:用专门的检测模型识别和标记UI中的可交互区域,如按钮和图标。提取功能语义:用描述模型提取检测到的元素的功能语义,生成对用户任务相关的描述。增强代理性能:结合解析结果,提升基于大型语言模型(如GPT-4V)的UI代理在执行任务时的性能和准确性。跨平台应用:支持多种操作系统和应用程序,如Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用。无需额外信息:无需依赖HTML或视图层次结构等额外信息,独立地从视觉截图中提取必要数据。

OmniParser的技术原理

数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集。模型微调:检测模型:用YOLOv8模型在可交互图标检测数据集上进行微调,识别和定位UI中的可交互区域。描述模型:用BLIP-v2模型在图标描述数据集上进行微调,生成图标的功能描述。OCR模块:集成光学字符识别(OCR)模块提取屏幕上的文本,与图标检测结果合并,去除高重叠的边界框。结构化表示:将检测到的元素和生成的描述整合,形成结构化的DOM(文档对象模型)表示,在潜在可交互元素上叠加边界框的截图。行动预测:结合结构化元素和功能语义,减轻大型语言模型在行动预测时的负担,更准确地将预测的行动转换为屏幕上的实际行动。

OmniParser的项目地址

项目官网:omniparser-for-pure-vision-based-gui-agentHuggingFace模型库:https://huggingface.co/microsoft/OmniParserarXiv技术论文:https://arxiv.org/pdf/2408.00203

OmniParser的应用场景

自动化软件测试:在软件开发过程中,自动识别和操作UI元素,执行测试脚本,提高测试效率和覆盖率。虚拟助手:作为虚拟助手的一部分,帮助理解屏幕内容、执行如预订、查询和数据输入等任务。辅助技术:对于视觉障碍人士,OmniParser能解析屏幕内容、转化为语音输出,提供屏幕阅读功能。用户界面设计验证:设计师验证UI设计中的可交互元素是否符合预期的功能和语义。跨平台应用开发:开发者在不同操作系统和设备上测试和优化应用的UI,确保一致的用户体验。
上一篇:Ditto – AI应用程序生成器,零编码自动规划和构建应用
相关资讯 更多+
  • OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
    OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据

    OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。

    AI教程资讯 2023-04-14

  • Ditto – AI应用程序生成器,零编码自动规划和构建应用
    Ditto – AI应用程序生成器,零编码自动规划和构建应用

    Ditto是基于Flask的应用程序生成器,用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程,将用户的想法转化为功能性的Web应用程序。用户用英语描述想要构建的应用程序,Ditto会自动生成相应的路由、模板和静态文件。Ditto支持模块化结构,将代码组织得井井有条。

    AI教程资讯 2023-04-14

  • Flux.1 Lite – Freepik推出的轻量级AI模型
    Flux.1 Lite – Freepik推出的轻量级AI模型

    Flux 1 Lite是Freepik团队推出的轻量级AI模型,目前处于alpha版本。Flux 1 Lite是基于80亿参数的transformer架构,从FLUX 1-dev模型中提取而来。Flux 1 Lite的模型权重文件大小为16 3 GB,相较于原始模型减少7GB的RAM使用,且运行速度提高23%,保持与原始模型相同的精度(bfloat16)。

    AI教程资讯 2023-04-14

  • Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架
    Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架

    Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交互。Phidata包含监控和优化工具,便于跟踪代理性能并和进行改进。

    AI教程资讯 2023-04-14

最新录入 更多+
确定