Long-VITA是什么
Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。

来源:爱论文 时间:2025-03-19 09:05:52
Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。
Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。
AI教程资讯
2023-04-14
WiseDiag 是杭州智诊科技推出的全球领先的医疗大模型,专注于基于人工智能技术提升医疗服务的效率和质量。模型具有 730 亿参数和 32k 的上下文长度,基于超过 3 万亿 Token 的专业医学数据训练,涵盖 1 万本医学专业书籍、5 万篇临床诊疗指南和 50 万篇全球医学论著。
AI教程资讯
2023-04-14
CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器(Video Diffusion Transformer),通过零样本学习的方式,仅训练 LoRA 参数来提取参考图像特征,实现高效的个性化视频生成。
AI教程资讯
2023-04-14
KTransformers是清华大学KVCache AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU CPU异构计算策略,用MoE架构的稀疏性,支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版,预处理速度最高达到286 tokens s,推理生成速度最高能达到14 tokens s。
AI教程资讯
2023-04-14