当前位置: 网站首页 >AI教程资讯 >正文

BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

来源:爱论文 时间:2025-04-13 14:45:55

BrowseComp是什么

BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。在测试中,OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低,最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,显示出在自主搜索、信息整合和准确性校准方面的优势。

BrowseComp

BrowseComp的主要功能

复杂信息检索能力评估:BrowseComp 包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。这些问题需要 AI 代理在庞大的互联网空间中进行深度搜索,将潜在答案与问题中提出的复杂约束条件相匹配。问题设计严格把控难度:为了确保问题的高难度,数据师们通过三个主要检查点来严格把控:验证现有的模型(如 OpenAI 的 GPT-4o、GPT-4.5 和早期版本的 Deep Research)无法解决这些问题;进行五次简单的谷歌搜索,保证答案不会出现在搜索结果的第一页上;确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。答案验证的可靠性:尽管问题难度高,但答案是简短且明确的,易于通过参考答案进行验证。这种设计使基准测试既具有挑战性,又不失公平性。推动 AI 浏览代理技术发展:BrowseComp 的开源为 AI 浏览代理的研究提供了新的工具和方向,推动了更智能、更可靠的浏览代理的发展。

BrowseComp的技术原理

复杂问题设计:BrowseComp 包含 1266 个极具挑战性的问题,这些问题需要 AI 代理在互联网上进行多步推理和跨多个网站的信息检索。问题的设计目标是模拟现实世界中复杂的信息检索场景,要求 AI 代理能够处理难以获取且相互关联的信息。多源信息整合:AI 代理需要访问多个网站,整合不同来源的信息,才能找到问题的答案。例如,一个典型的问题可能需要代理访问体育赛事记录、裁判信息等多个网站,才能得出正确答案。推理与搜索策略:除了简单的信息检索,AI 代理还需要具备强大的推理能力,能根据检索到的信息进行逻辑分析和综合处理。例如,Deep Research 模型在 BrowseComp 中表现优异,因为能自主调整搜索策略,根据检索结果动态优化搜索路径。动态适应性:AI 代理需要具备动态适应性,能根据搜索过程中遇到的各种信息,快速做出反应并调整搜索策略。适应性使代理能在复杂的网络环境中更有效地找到目标信息。计算资源的影响:测试结果表明,增加计算资源可以显著提升 AI 代理在复杂网络浏览任务中的表现。更多的计算资源允许代理尝试更多的搜索路径,提高找到正确答案的概率。

BrowseComp的模型性能

GPT-4o 和 GPT-4.5:两个模型在 BrowseComp 上的表现较差,准确率分别为 0.6% 和 0.9%。即使为 GPT-4o 启用浏览功能后,准确率也仅从 0.6% 提升到 1.9%。表明单纯赋予模型浏览能力,不能有效解决 BrowseComp 中的复杂问题。OpenAI o1 模型:不具备浏览能力,但凭借较强的推理能力,准确率达到了 9.9%。说明推理能力在网络浏览任务中同样重要,即使无法直接从网络中检索信息,模型也可以通过对已有知识的深度推理来找到部分问题的答案。Deep Research 模型:是 OpenAI 最新发布的 Agent 模型,在 BrowseComp 测试中表现最为出色,准确率高达 51.5%。模型能高效使用浏览工具,能对检索到的信息进行深度分析和综合处理。Deep Research 模型具备强大的适应性,能根据搜索过程中获取的各种信息迅速做出反应并调整搜索策略。

BrowseComp的项目地址

项目官网:https://openai.com/index/browsecomp/Github仓库:https://github.com/openai/simple-evals技术论文:https://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf

BrowseComp的应用场景

企业知识库智能检索:可用于企业知识库的智能检索,如将大量研究文档转化为智能问答系统,提升了研发人员的信息查询效率。电商产品导购:在电商领域,可用于构建智能导购系统,帮助用户快速找到符合复杂需求的产品。**信息公开服务:**机构可以用于提供更高效的信息公开服务,帮助公众快速获取所需的政策、法规等信息。研究与开发:研究人员可用于测试和改进 AI 模型的推理和搜索策略,推动 AI 技术在信息检索领域的进一步发展。
上一篇:日日新SenseNova V6 – 商汤推出的多模态融合模型系列
相关资讯 更多+
  • BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准
    BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

    BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。

    AI教程资讯 2023-04-14

  • 日日新SenseNova V6 – 商汤推出的多模态融合模型系列
    日日新SenseNova V6 – 商汤推出的多模态融合模型系列

    日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在纯文本任务和多模态任务中表现卓越,多项指标超越GPT-4 5、Gemini 2 0 Pro等模型。

    AI教程资讯 2023-04-14

  • 明岐 – 上海交大推出的医学多模态大模型,精准诊断罕见病
    明岐 – 上海交大推出的医学多模态大模型,精准诊断罕见病

    明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影像、病历文本及化验指标等数据,为医生提供高精度、可解释的诊断支撑。

    AI教程资讯 2023-04-14

  • Fourier N1 – 傅利叶推出的首款开源人形机器人
    Fourier N1 – 傅利叶推出的首款开源人形机器人

    Fourier N1 是通用机器人公司傅利叶发布的首款开源人形机器人。身高1 3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,兼具强度与灵活性。搭载的FSA 2 0一体化执行器和自研控制系统,最高稳定奔跑速度可达3 5米 秒,具备单足站立及撑地爬起等高难度动作能力。

    AI教程资讯 2023-04-14

最新录入 更多+
确定