当前位置: 网站首页 >AI教程资讯 >正文

WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

来源:爱论文 时间:2025-03-21 12:57:49

WorldSense是什么

WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSense包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,及3172个多项选择问答对,涉及26个不同的认知任务。WorldSense强调音频和视频信息的紧密耦合,所有问题都需要用这两种模态得出正确答案。WorldSense高质量的标注由80名专家标注员手动完成,经过多轮验证,确保标注的准确性和可靠性。

WorldSense

WorldSense的主要功能

多模态协作评估:强调音频和视频信息的紧密耦合,设计需要用视觉和听觉信息才能正确回答的问题。严格测试模型在多模态输入下的理解能力,确保模型能够有效整合不同模态的信息以实现准确的理解。多样化视频和任务覆盖:WorldSense包含1662个音频-视频同步的多样化视频,涵盖8个主要领域和67个细分子类别,及3172个多项选择问答对,覆盖26个不同的认知任务。高质量标注与验证:所有问答对均由80名专家标注员手动标注,经过多轮验证,包括人工审核和自动模型验证,确保标注的准确性和可靠性。

WorldSense的技术原理

多模态输入处理:WorldSense要求模型同时处理视频、音频和文本输入。视频和音频的同步性确保模型能捕捉到视觉和听觉信息之间的关联,更全面地理解场景。多模态输入处理能力是评估模型是否能像人类一样处理复杂环境的关键。任务设计与标注:基于精心设计的问答对,确保每个问题都需要多模态信息的整合得出正确答案。标注过程涉及多轮人工审核和自动验证,确保问题的合理性和标注的准确性。多模态融合与推理:基于多样化的任务设计,评估模型在不同层次上的多模态理解能力,包括基本感知(如音频和视觉元素的检测)、理解(多模态关系的把握)和推理(如因果推断和抽象思维)。多层次的评估方法能全面测试模型的多模态融合和推理能力。数据收集与筛选:WorldSense的数据收集过程包括从大规模视频数据集中筛选出具有强音频-视觉关联的视频片段,基于人工审核确保视频内容的质量和多样性,确保基准测试覆盖广泛的现实世界场景。

WorldSense的项目地址

项目官网:https://jaaackhongggg.github.io/WorldSense/GitHub仓库:https://github.com/JaaackHongggg/WorldSenseHuggingFace模型库:https://huggingface.co/datasets/honglyhly/WorldSensearXiv技术论文:https://arxiv.org/pdf/2502.04326

WorldSense的应用场景

自动驾驶:帮助自动驾驶系统更好地理解交通环境中的视觉和听觉信息,提升决策准确性。 智能教育:评估和改进教育工具对教学视频内容的理解能力,辅助个性化学习。 智能监控:提升监控系统对视频中视觉和音频信息的感知与理解能力,增强安全检测效果。 智能客服:评估智能客服系统对用户语音、表情和文本输入的理解能力,优化交互体验。内容创作:帮助多媒体内容创作和分析系统更智能地理解视频内容,提高创作和推荐效率。
上一篇:Kiln AI- 开源 AI 原型设计和数据集协作开发工具,微调专属模型
相关资讯 更多+
  • WorldSense – 小红书联合上海交大推出的多模态全面评测新基准
    WorldSense – 小红书联合上海交大推出的多模态全面评测新基准

    WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSense包含1662个音频-视频同步的多样化视频,覆盖8个主要领域和67个细分子类别,及3172个多项选择问答对,涉及26个不同的认知任务。

    AI教程资讯 2023-04-14

  • Kiln AI- 开源 AI 原型设计和数据集协作开发工具,微调专属模型
    Kiln AI- 开源 AI 原型设计和数据集协作开发工具,微调专属模型

    Kiln AI是开源的 AI 开发工具,能简化大型语言模型(LLM)的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序,支持 Windows、MacOS 和 Linux,用户基于零代码方式对多种模型(如 Llama、GPT4o 和 Mixtral)进行微调,实现自动部署。

    AI教程资讯 2023-04-14

  • Airweave – 将任何应用程序转为 Agent 知识库的开源工具
    Airweave – 将任何应用程序转为 Agent 知识库的开源工具

    Airweave 是开源工具,能将任何应用程序的数据(包括API、数据库、网站等)同步到图数据库和向量数据库中,让数据能基于智能代理或搜索机制进行检索。Airweave用数据分块、哈希检测和自动同步等功能,简化数据检索和管理的流程。

    AI教程资讯 2023-04-14

  • MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法
    MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法

    MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入运动设计模块,让用户能直观地在图像上规划相机运动和物体运动,实现复杂的镜头设计。

    AI教程资讯 2023-04-14

最新录入 更多+
确定