Pangea – 卡内基梅隆大学开源的多语言多模态大语言模型-爱论文

Pangea是什么

Pangea是卡内基梅隆大学团队推出的多语言多模态大型语言模型（LLM），能提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集，支持39种语言，包含高质量英文指令、机器翻译指令及文化相关任务。Pangea基于包含14个数据集、覆盖47种语言的PangeaABench评估套件进行性能评估。Pangea在多语言和文化背景下的性能超越现有开源模型（如Llava-1.5-7B、Llava-Next-7B）。研究发现英语数据比例、语言流行度和多模态训练样本数量对性能有显著影响。

Pangea的主要功能

多语言支持：能理解和生成39种不同语言的文本，在多语言交流和处理中非常有用。多模态理解：除文本外，能处理和理解图像，在图像描述、视觉问答等任务中表现出色。跨文化覆盖：在训练中包含与文化相关的多模态任务，有助于模型更好地理解和适应不同文化背景。高质量指令遵循：Pangea在训练中使用高质量的英文指令，及经过精心机器翻译的指令，确保模型在不同语言中的准确性和一致性。

Pangea的技术原理

数据集构建：基于Pangea数据集，一个包含600万条指令的多语言数据集，覆盖39种语言。机器翻译：为解决多语言数据的稀缺问题，用机器翻译技术将高质量英文指令翻译成其他语言。文化相关任务：在训练中包含与文化相关的多模态任务，提高模型对文化差异的理解和适应性。评估套件：PangeaABench是包含14个数据集、覆盖47种语言的评估套件，用在全面评估模型在多语言和多模态任务中的表现。模型架构：基于LLaVA-Next架构，用Qwen2-7B-Instruct作为语言模型的骨干，为模型提供强大的语言理解和生成能力。

Pangea的项目地址

项目官网：neulab.github.io/PangeaGitHub仓库：https://github.com/neulab/PangeaHuggingFace模型库：https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8arXiv技术论文：https://arxiv.org/pdf/2410.16153在线体验Demo：https://huggingface.co/spaces/neulab/Pangea

Pangea的应用场景

多语言客户服务：在全球化的公司中，提供多语言的客户支持和服务，帮助解决不同语言客户的问题。教育和学习：作为教育工具，帮助学习者获取多语言的学习材料，或在语言教学中提供辅助。跨文化交流：在国际组织或非**组织中，促进不同文化背景人士之间的交流和理解。社交媒体和内容创作：Pangea帮助内容创作者生成多语言的内容，或在社交媒体上与不同语言的用户互动。旅游和导航：在旅**业中，提供多语言的旅游信息和导航服务，帮助游客克服语言障碍。

Pangea &#8211; 卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是什么

Pangea的主要功能

Pangea的技术原理

Pangea的项目地址

Pangea的应用场景

Pangea – 卡内基梅隆大学开源的多语言多模态大语言模型