当前位置: 网站首页 >AI教程资讯 >正文

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

来源:爱论文 时间:2025-03-19 09:05:52

Long-VITA是什么

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。

Long-VITA

Long-VITA的主要功能

长文本处理能力:能处理超过100万tokens的输入,支持长文本、长视频和高分辨率图像的多模态任务。多模态理解:支持图像、视频和文本的输入,适用于视频理解、高分辨率图像分析、长文本生成等任务。上下文扩展能力:基于分阶段训练,逐步扩展模型的上下文窗口,且保持对短文本任务的高性能。开源数据训练:用开源数据集进行训练,无需内部数据,降低开发门槛。可扩展性:支持上下文并行分布式推理,能处理无限长度的输入,适用于大规模部署。

Long-VITA的技术原理

分阶段训练:视觉-语言对齐:冻结语言模型和视觉编码器,仅训练投影器,建立视觉和语言特征的初始连接。通用知识学习:用图像-文本数据进行多任务学习,提升模型的通用知识理解能力。长序列微调:逐步扩展上下文长度(从128K到1M),加入长文本和视频理解数据,优化模型对长内容的理解能力。上下文并行分布式推理:基于张量并行和上下文并行技术,支持对无限长度输入的推理,解决长文本处理中的内存瓶颈。动态分块编码器:用动态分块策略高效处理高分辨率图像,支持不同宽高比的输入。掩码语言建模头:在推理阶段,基于掩码输出logits,显著降低内存占用,支持大规模长文本生成。

Long-VITA的项目地址

GitHub仓库:https://github.com/VITA-MLLM/Long-VITAHuggingFace模型库:https://huggingface.co/VITA-MLLMarXiv技术论文:https://arxiv.org/pdf/2502.05177v1

Long-VITA的应用场景

视频内容生成:自动生成视频摘要、字幕或回答视频相关问题。图像分析:辅助艺术创作、医学影像诊断或卫星图像分析。长文本处理:生成小说、学术报告或文档摘要。智能对话:在客服、教育或智能家居中,通过文字、图片和视频与用户交互。实时会议辅助:提供实时翻译、字幕和会议记录生成。
上一篇:WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
相关资讯 更多+
  • Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
    Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

    Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。

    AI教程资讯 2023-04-14

  • WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
    WiseDiag – 杭州智诊科技推出全球领先的医疗大模型

    WiseDiag 是杭州智诊科技推出的全球领先的医疗大模型,专注于基于人工智能技术提升医疗服务的效率和质量。模型具有 730 亿参数和 32k 的上下文长度,基于超过 3 万亿 Token 的专业医学数据训练,涵盖 1 万本医学专业书籍、5 万篇临床诊疗指南和 50 万篇全球医学论著。

    AI教程资讯 2023-04-14

  • CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架
    CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架

    CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。

    AI教程资讯 2023-04-14

  • KTransformers – 清华开源的大语言模型推理优化框架
    KTransformers – 清华开源的大语言模型推理优化框架

    KTransformers是清华大学KVCache AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU CPU异构计算策略,用MoE架构的稀疏性,支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版,预处理速度最高达到286 tokens s,推理生成速度最高能达到14 tokens s。

    AI教程资讯 2023-04-14

最新录入 更多+
确定