当前位置: 网站首页 >AI教程资讯 >正文

Maya – 开源多语言多模态模型,能处理和理解八种不同语言

来源:爱论文 时间:2025-01-26 11:04:09

Maya是什么

Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基于毒性分析和数据集过滤,确保训练数据的安全性和质量,支持包括中文、法语、西班牙语、俄语、印地语、日语和阿拉伯语在内的多种语言,致力于提升低资源语言的AI内容生成质量。

Maya

Maya的主要功能

多语言支持:Maya能处理和理解八种不同的语言,包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语,增强对低资源语言的支持。多模态能力:结合图像和文本数据,让机器基于过自然语言理解视觉世界,执行图像描述、视觉问题回答等任务。指令微调:基于指令微调,更好地理解和响应自然语言指令,提升在实际应用中的性能和适应性。数据集创建与毒性过滤:创建多语言图像-文本预训练数据集,进行毒性分析和过滤,确保数据的安全性和质量。跨文化理解:基于多语言和多模态数据,更好地理解和处理不同文化背景下的视觉和语言信息。

Maya的技术原理

模型架构:基于LLaVA 1.5架构,用Aya-23 8B模型作为多语言语言模型(LLM)和SigLIP作为视觉编码器,支持多语言和多模态输入。预训练数据集:创建包含558,000张图像的多语言图像-文本预训练数据集,涵盖八种语言,支持多语言视觉语言模型的开发。毒性分析:用LLaVAGuard 7B和Toxic-BERT对数据集中的图像和文本进行毒性分析,识别和过滤掉不安全或有害的内容。预训练与微调:预训练:用投影矩阵W将图像特征转换为语言特征,基于多轮对话数据进行预训练,优化图像和文本的对齐。微调:在PALO 150K指令微调数据集上进行微调,进一步提升模型对指令的理解和响应能力。跨模态对齐:基于投影矩阵和训练策略,优化图像特征和语言特征之间的对齐,提高模型在视觉-语言任务中的表现。

Maya的项目地址

GitHub仓库:https://github.com/nahidalam/mayaHuggingFace模型库:https://huggingface.co/maya-multimodal/mayaarXiv技术论文:https://arxiv.org/pdf/2412.07112

Maya的应用场景

跨语言内容理解:帮助用户理解不同语言的图像内容,例如在多语言环境中识别和解释路标、广告、菜单等。图像和视频分析:在安全监控、内容审核等领域,分析图像和视频,识别和过滤不当内容。教育和学习:为非母语学习者提供多语言学习材料的图像和文本分析,增强语言学习体验。旅游和导航:帮助游客在不同国家识别和翻译街道标志、地图和文化地标等。电子商务:在多语言电商平台上,帮助用户理解产品描述和图像,提升购物体验。
上一篇:千影 QianYing – 巨人网络推出的有声游戏生成大模型
相关资讯 更多+
  • Maya – 开源多语言多模态模型,能处理和理解八种不同语言
    Maya – 开源多语言多模态模型,能处理和理解八种不同语言

    Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基于毒性分析和数据集过滤,确保训练数据的安全性和质量。

    AI教程资讯 2023-04-14

  • 千影 QianYing – 巨人网络推出的有声游戏生成大模型
    千影 QianYing – 巨人网络推出的有声游戏生成大模型

    千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨人网络AI Lab与清华大学SATLab联合推出的,能实现角色多样动作交互控制和物理仿真特性,与YingSound结合可生成匹配画面的复杂音效。

    AI教程资讯 2023-04-14

  • Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM
    Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM

    Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改一行代码。Promptic支持流式响应、内置对话记忆、错误处理和重试,及可扩展的状态管理。

    AI教程资讯 2023-04-14

  • SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑
    SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑

    SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具,基于创新的一步扩散技术,能在0 23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术,让编辑过程迅速,且能保持与文本提示的高匹配度,同时保留图像的关键背景元素。

    AI教程资讯 2023-04-14

最新录入 更多+
确定