ParGo是什么
ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

来源:爱论文 时间:2025-03-28 13:34:14
ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。
ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息。
AI教程资讯
2023-04-14
MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,从而生成跨越周期表的稳定、多样化的无机材料。MatterGen能被微调,满足广泛的性能约束,如化学组成、对称性、磁性、电子和机械性能等。
AI教程资讯
2023-04-14
XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术,可将提示词内容解析至符号音乐要素空间,以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。
AI教程资讯
2023-04-14
Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型,直接对真实数据进行对抗性训练,而非用预训练模型作为教师来生成目标,在单步生成中实现高质量的图像和视频输出。
AI教程资讯
2023-04-14