当前位置: 网站首页 >AI教程资讯 >正文

Sa2VA – 字节跳动等机构开源的多模态大语言模型

来源:爱论文 时间:2025-03-19 13:40:42

Sa2VA是什么

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。Sa2VA采用解耦设计,保留SAM2的感知能力和LLaVA的语言理解能力,引入Ref-SAV数据集,用在提升复杂视频场景下的指代分割性能。

Sa2VA

Sa2VA的主要功能

图像和视频指代分割:根据自然语言描述精确分割图像或视频中的目标对象。图像和视频对话:支持与用户进行基于图像或视频的对话,回答与视觉内容相关的问题。视觉提示理解:支持处理视觉提示(如图像中的框、点等),并结合语言描述生成对应的分割掩码或回答。基于指令的视频编辑:根据用户指令对视频内容进行编辑,密集的视觉理解:Sa2VA能理解图像和视频的整体内容,还能对像素级的视觉细节进行分析和操作,支持复杂场景下的细粒度任务,如长文本描述的视频对象分割。零样本推理:支持在未见过的视频上进行推理,根据语言描述直接生成分割掩码或回答问题,无需额外训练。

Sa2VA的技术原理

模型架构:结合SAM2和 LLaVA。SAM2负责视频的时空分割,LLaVA提供语言理解和生成能力。两者基于特殊的 [SEG] 令牌连接,LLaVA的输出作为SAM2的输入,指导其生成分割掩码。统一任务表示:将多种任务(如指代分割、视觉对话、视觉提示理解等)统一为单次指令调整过程。所有输入(图像、视频、文本)被编码为视觉令牌,输入到LLM中,输出文本或分割掩码。解耦设计:基于解耦设计,冻结SAM2的解码器和记忆模块,保留其感知和跟踪能力。Ref-SAV数据集:引入Ref-SAV数据集,包含超过72k个复杂视频场景中的对象表达。数据集基于自动标注管道生成,包含长文本描述和复杂场景,提升模型在复杂环境下的性能。时空提示:基于LLaVA生成的 [SEG] 令牌作为SAM2的时空提示,指导生成精确的分割掩码。联合训练:在多个数据集上进行联合训练,包括图像QA、视频QA、图像分割和视频分割数据。

Sa2VA的项目地址

项目官网:https://lxtgh.github.io/project/sa2va/GitHub仓库:https://github.com/magic-research/Sa2VAHuggingFace模型库:https://huggingface.co/ByteDance/Sa2VAarXiv技术论文:https://arxiv.org/pdf/2501.04001

Sa2VA的应用场景

视频编辑:根据语言指令快速移除或替换视频中的对象,提升创作效率。智能监控:基于语言描述实时识别和跟踪监控画面中的目标,助力安防监控。机器人交互:理解指令并操作,如“拿起红色杯子”,增强机器人与环境的互动。内容创作:为图像或视频生成描述和问答,辅助教育或创意写作。自动驾驶:识别和分割道路场景中的行人、车辆等,辅助驾驶决策。
上一篇:WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
相关资讯 更多+
  • Sa2VA – 字节跳动等机构开源的多模态大语言模型
    Sa2VA – 字节跳动等机构开源的多模态大语言模型

    Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。

    AI教程资讯 2023-04-14

  • WebLI-100B  – 谷歌 DeepMind 推出的1000亿视觉语言数据集
    WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集

    WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。

    AI教程资讯 2023-04-14

  • BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术
    BAG – 港中文联合腾讯推出的3D可穿戴资产生成技术

    BAG(Body-Aligned 3D Wearable Asset Generation)是香港中文大学和腾讯联合提出创新的3D可穿戴资产生成技术,通过结合多视图图像扩散模型和控制网络(ControlNet),运用人体形状和姿态信息,自动生成与人体完美适配的3D可穿戴资产,如服装和配饰。

    AI教程资讯 2023-04-14

  • 通古大模型 – 华南理工大学推出的古籍大语言模型
    通古大模型 – 华南理工大学推出的古籍大语言模型

    通古大模型是华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)推出的专注于古籍文言文处理的人工智能语言模型。基于百川2-7B-Base进行增量预训练,使用24 1亿古籍语料进行无监督训练,结合400万古籍对话数据进行指令微调。

    AI教程资讯 2023-04-14

最新录入 更多+
确定