当前位置: 网站首页 >AI教程资讯 >正文

VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

来源:爱论文 时间:2025-03-26 15:32:42

VideoChat-Flash是什么

VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。采用多阶段从短到长的学习方案,结合真实世界长视频数据集 LongVid,进一步提升对长视频的理解能力。

VideoChat-Flash

VideoChat-Flash的主要功能

长视频理解能力:VideoChat-Flash 通过分层压缩技术(HiCo)有效处理长视频,能处理长达数小时的视频内容。在“针在干草堆中”(NIAH)任务中,首次在开源模型中实现了 10,000 帧(约 3 小时视频)的 99.1% 准确率。高效模型架构:模型通过将每个视频帧编码为仅 16 个 token,显著降低了计算量,推理速度比前代模型快 5-10 倍。多阶段从短到长的学习方案,结合真实世界的长视频数据集 LongVid,进一步提升了模型的性能。强大的视频理解能力:VideoChat-Flash 在多个长视频和短视频基准测试中均表现出色,超越了其他开源 MLLM 模型,甚至在某些任务中超过了规模更大的模型。多跳上下文理解:VideoChat-Flash 支持多跳 NIAH 任务,能追踪长视频中的多个关联图像序列,进一步提升了对复杂上下文的理解能力。

VideoChat-Flash的技术原理

分层压缩技术(HiCo):HiCo 是 VideoChat-Flash 的核心创新之一,旨在高效处理长视频中的冗余视觉信息。片段级压缩:将长视频分割为较短的片段,对每个片段进行独立编码。视频级压缩:在片段编码的基础上,进一步压缩整个视频的上下文信息,减少需要处理的标记数量。语义关联优化:结合用户查询的语义信息,进一步减少不必要的视频标记,从而降低计算量。多阶段学习方案:VideoChat-Flash 采用从短视频到长视频的多阶段学习方案,逐步提升模型对长上下文的理解能力。初始阶段:使用短视频及其注释进行监督微调,建立模型的基础理解能力。扩展阶段:逐步引入长视频数据,训练模型处理更复杂的上下文。混合语料训练:最终在包含短视频和长视频的混合语料上进行训练,以实现对不同长度视频的全面理解。真实世界长视频数据集 LongVid:为了支持模型训练,研究团队构建了 LongVid 数据集,包含 30 万小时的真实世界长视频和 2 亿字的注释。该数据集为模型提供了丰富的训练素材,使其能够更好地适应长视频理解任务。模型架构:VideoChat-Flash 的架构包括三个主要部分:视觉编码器、视觉-语言连接器和大语言模型(LLM)。通过这种分层架构,模型能高效地将视频内容编码为紧凑的标记序列,通过 LLM 进行长上下文建模。

VideoChat-Flash的项目地址

GitHub仓库:https://github.com/OpenGVLab/VideoChat-FlasharXiv技术论文:https://arxiv.org/pdf/2501.00574

VideoChat-Flash的应用场景

视频字幕生成与翻译:模型能生成详细且准确的视频字幕,适用于多语言翻译和无障碍字幕生成,帮助观众更好地理解视频内容。视频问答与交互:VideoChat-Flash 支持基于视频内容的自然语言问答,用户可以通过提问获取视频中的关键信息,例如电影剧情解析、纪录片中的知识点等。具身AI与机器人学习:在具身AI领域,VideoChat-Flash 可以通过长时间的自我视角视频帮助机器人学习复杂的任务,例如制作咖啡等,通过分析视频中的关键事件来指导机器人完成任务。体育视频分析与集锦生成:模型能分析体育比赛视频,提取关键事件并生成集锦,帮助观众快速了解比赛的精彩瞬间。监控视频分析:VideoChat-Flash 可以处理长时间的监控视频,识别和追踪关键事件,提高监控系统的效率和准确性。
上一篇:EmoLLM – 专注于心理健康支持的大语言模型
相关资讯 更多+
  • VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型
    VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

    VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。

    AI教程资讯 2023-04-14

  • EmoLLM – 专注于心理健康支持的大语言模型
    EmoLLM – 专注于心理健康支持的大语言模型

    EmoLLM 是专注于心理健康支持的大型语言模型,通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多种数据形式,基于先进的多视角视觉投影技术,从不同角度捕捉情感线索,更全面地理解用户的情绪状态。

    AI教程资讯 2023-04-14

  • Step-Video V2 – 阶跃星辰推出的升级版视频生成模型
    Step-Video V2 – 阶跃星辰推出的升级版视频生成模型

    Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的VAE模型以及深度优化的DiT架构,引入强化学习算法。能生成复杂的动态场景,如芭蕾舞、空手道等,同时支持丰富的镜头语言和基础文字生成。

    AI教程资讯 2023-04-14

  • UI-TARS – 字节跳动推出的开源原生 GUI 代理模型
    UI-TARS – 字节跳动推出的开源原生 GUI 代理模型

    UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和记忆能力,能实时理解动态界面,通过多模态输入(如文本、图像)执行复杂的任务。

    AI教程资讯 2023-04-14

最新录入 更多+
确定