当前位置: 网站首页 >AI教程资讯 >正文

VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

来源:爱论文 时间:2025-01-21 16:51:05

VSI-Bench是什么

VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench

VSI-Bench的主要功能

评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。基准测试:提供标准化的测试集,包含5000多个问答对,用在基准测试和比较不同MLLMs在视觉空间任务上的性能。任务多样性:包括配置型任务(物体计数、相对距离、相对方向、路线规划)、测量估计(物体尺寸、房间大小、绝对距离)和时空任务(物体出现顺序),全面覆盖视觉空间智能的多个方面。视频理解:基于视频输入,VSI-Bench测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。。

VSI-Bench的技术原理

数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),数据集提供高保真度的视频扫描和对象级别的3D注释。问题-答案对生成:基于数据集中的元信息(如对象类别、边界框)和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。模型评估:在零样本设置下评估多种视频支持的MLLMs,用默认提示进行测试,采用精确匹配和模糊匹配作为主要评价指标。性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

VSI-Bench的项目地址

项目官网:vision-x-nyu.github.io/thinking-in-spaceGitHub仓库:https://github.com/vision-x-nyu/thinking-in-spaceHuggingFace模型库:https://huggingface.co/datasets/nyu-visionx/VSI-BencharXiv技术论文:https://arxiv.org/pdf/2412.14171

VSI-Bench的应用场景

机器人导航与交互:在机器人技术领域,评估和训练MLLMs,更好地理解空间布局,提高机器人在未知环境中的导航和避障能力。增强现实(AR)/虚拟现实(VR):在AR/VR应用中,帮助MLLMs更好地理解用户的物理空间环境,提供更自然的交互体验。自动驾驶汽车:自动驾驶系统需要精确的空间理解能力处理复杂的交通场景,用在开发和测试支持自动驾驶的视觉空间智能系统。智能家居系统:智能家居系统需要理解居住空间的布局和物体的位置,VSI-Bench帮助训练MLLMs,使其更好地服务于智能家居控制和自动化。室内设计和建筑规划:评估MLLMs在空间规划和设计中的应用,帮助系统提供更合理的布局建议。
上一篇:Bamba-9B – 基于 Mamba2 架构的仅解码语言模型
相关资讯 更多+
  • VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集
    VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

    VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。

    AI教程资讯 2023-04-14

  • Bamba-9B – 基于 Mamba2 架构的仅解码语言模型
    Bamba-9B – 基于 Mamba2 架构的仅解码语言模型

    Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。

    AI教程资讯 2023-04-14

  • Univer – 开源 AI 办公工具,支持Word、Excel等文档处理全栈解决方案
    Univer – 开源 AI 办公工具,支持Word、Excel等文档处理全栈解决方案

    Univer是开源的全栈框架,支持创建和编辑电子表格、文档及幻灯片,为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node js环境中运行,易于集成到各种应用中。Univer跨平台兼容性、强大的功能(包括公式计算、条件格式、数据验证等)、高度可扩展和可定制化的特点,及优异的性能表现,为用户提供现代化的办公工具。

    AI教程资讯 2023-04-14

  • Kheish – 开源的多智能体协调平台,可灵活配置多个Agent解决复杂任务
    Kheish – 开源的多智能体协调平台,可灵活配置多个Agent解决复杂任务

    Kheish是开源的、基于大型语言模型(LLM)的多智能体编排平台,用多个专门的角色(智能体)和灵活的工作流协调复杂任务的各个步骤,如提案生成、审核、验证和格式化,产生高质量结果。平台能无缝集成外部模块,例如文件系统访问、shell命令和向量存储,丰富上下文并处理大型代码库或文档。

    AI教程资讯 2023-04-14

最新录入 更多+
确定