当前位置: 网站首页 >AI教程资讯 >正文

Instella – AMD开源的30亿参数系列语言模型

来源:爱论文 时间:2025-04-20 15:49:57

Instella是什么

Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和32个注意力头,支持最长4096个标记的序列。Instella经过多阶段训练,包括大规模预训练、监督微调和偏好优化,提升自然语言理解、指令跟随和对话能力。Instella在多个基准测试中超越现有的开源模型,与最先进的开源权重模型具有竞争力。AMD完全开源Instella的模型权重、训练配置、数据集和代码,促进AI社区的合作与创新。

Instella

Instella的主要功能

自然语言理解:理解复杂的自然语言文本,处理各种语言任务,如问答、文本生成和语义分析。指令跟随:基于监督微调(SFT)和直接偏好优化(DPO),准确理解和执行用户指令,生成符合人类偏好的回答。多轮对话能力:支持多轮交互,根据上下文进行连贯的对话。问题解决能力:在数学问题、逻辑推理和知识问答等任务上表现出色。多领域适应性:基于多样化的训练数据,适应多种领域,如学术、编程、数学和日常对话等。

Instella的技术原理

Transformer架构:基于自回归Transformer架构,包含36个解码器层,每层有32个注意力头,支持最长4096个标记的序列长度。高效训练技术:FlashAttention-2、Torch Compile和bfloat16混合精度训练,优化内存使用和计算效率。多阶段训练:用4.065万亿标记进行大规模预训练,建立基础语言理解能力。在第一阶段基础上进一步训练,使用额外的575.75亿标记,增强特定任务能力。监督微调(SFT):用高质量的指令-响应对数据进行微调,提升指令跟随能力。直接偏好优化(DPO):基于人类偏好数据对模型进行优化,让输出更符合人类价值观。分布式训练:基于完全分片数据并行(FSDP)技术,将模型参数、梯度和优化器状态在节点内分片,在节点间复制,实现大规模集群训练。数据集:基于多样化的高质量数据集进行训练,包括学术、编程、数学和对话数据,及合成数据集,确保模型具备广泛的知识和能力。

Instella的项目地址

项目官网:https://rocm.blogs.amd.com/artificial-intelligence/introducing-instellaGitHub仓库:https://github.com/AMD-AIG-AIMA/InstellaHuggingFace模型库:https://huggingface.co/collections/amd/instella

Instella的应用场景

智能客服:自动回答问题,提供个性化服务,提升客户体验。内容创作:生成文案、故事等,辅助内容创作者提高效率。教育辅导:解答学术问题,提供学习建议,辅助学生学习。编程辅助:生成代码片段,提供编程建议,帮助开发者解决问题。企业知识管理:整合公司知识,提供内部咨询,提升协作效率。
上一篇:Maestro – 开源的端到端自动化测试框架
相关资讯 更多+
  • Instella – AMD开源的30亿参数系列语言模型
    Instella – AMD开源的30亿参数系列语言模型

    Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和32个注意力头,支持最长4096个标记的序列。

    AI教程资讯 2023-04-14

  • Maestro – 开源的端到端自动化测试框架
    Maestro – 开源的端到端自动化测试框架

    Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,支持在yaml文件中定义测试,无需编译快速迭代。

    AI教程资讯 2023-04-14

  • OLMo 2 32B – Ai2 推出的最新开源语言模型
    OLMo 2 32B – Ai2 推出的最新开源语言模型

    OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超越 GPT-3 5-Turbo 和 GPT-4o-mini 的完全开放模型,性能接近 Qwen-2 5-72B 等更大规模模型。

    AI教程资讯 2023-04-14

  • InternVL – OpenGVLab 推出的多模态大模型
    InternVL – OpenGVLab 推出的多模态大模型

    InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如 InternLM)的融合,实现视觉与语言的深度结合。

    AI教程资讯 2023-04-14

最新录入 更多+
确定