当前位置: 网站首页 >AI教程资讯 >正文

YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型

来源:爱论文 时间:2025-03-25 13:13:40

YuE是什么

YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻哈等,并且支持英语、中文、日语和韩语等多种语言。YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案,解决了音乐生成中的长上下文、复杂音乐信号、语言内容失真等挑战,生成的歌曲具有连贯的音乐结构和吸引人的声乐旋律。模型完全开源,用户可以自由使用和修改代码。提供了灵活的生成选项,用户可以通过简单的命令行参数调整生成歌曲的风格、声乐类型等细节。

YuE

YuE的主要功能

歌词转歌曲:能将输入的歌词转化为完整的歌曲,包含主唱和伴奏。多种音乐风格支持:支持流行、金属、爵士、嘻哈等多种音乐风格。高质量生成:通过多种技术优化,确保生成的歌曲连贯且高质量。多语言支持:支持英语、中文、日语和韩语等多种语言。长时间音乐创作:可以生成长达 5 分钟的完整歌曲。开源与可定制:代码和模型完全开源,用户可以自由使用和修改。情感和风格匹配:能根据歌词的情感基调生成匹配的音乐风格。跨模态应用:可以与其他多模态模型结合,用于多媒体艺术创作。

YuE的技术原理

语义增强音频分词器:YuE 使用语义增强音频分词器来降低训练成本并加速收敛。能更好地理解歌词的语义信息,与音乐信号相结合,生成更符合歌词内容的音乐。双分词技术:YuE 提出了一种双分词技术,用于在不修改 LLaMa 解码器-only 架构的情况下实现音轨同步的声乐-乐器建模。模型可以在生成主唱部分的同时,同步生成合适的伴奏,确保两者在节奏和旋律上的协调性。歌词链式思维生成:YuE 引入了歌词链式思维生成技术,支持模型在遵循歌词条件的情况下逐步生成整首歌曲。使模型能更好地处理长上下文信息,确保生成的歌曲在整体结构上保持连贯性。三阶段训练方案:YuE 采用了三阶段训练方案,确保更好的可扩展性、音乐性和歌词可控性。具体来说:第一阶段:基础模型训练,学习音乐生成的基本模式。第二阶段:风格和情感对齐,通过大量样本来调整模型,能生成特定风格和情感的音乐。第三阶段:偏好纠正,通过强化学习等技术进一步优化生成结果,确保生成的音乐更符合人类的审美标准。

YuE的项目地址

项目官网:https://map-yue.github.io/GitHub仓库:https://github.com/multimodal-art-projection/YuEHuggingFace模型库:https://huggingface.co/m-a-p/YuE-s1-7B-anneal-en-cot

YuE的应用场景

音乐创作:音乐创作者可以用 YuE 快速生成旋律和伴奏,激发创作灵感。根据用户提供的歌词,生成符合其情感和风格需求的个性化歌曲。影视与视频制作:为电影、电视剧和短视频生成背景音乐,匹配不同场景的情感和氛围。为广告制作朗朗上口的铃声,有效传达品牌信息。游戏音乐:为游戏生成匹配场景的背景音乐,增强游戏的沉浸感。社交媒体内容:为 TikTok 和 Instagram 等平台上的短视频生成独特的背景音乐。
上一篇:VARGPT – 北大推出的多模态理解生成统一模型
相关资讯 更多+
  • YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型
    YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型

    YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士、嘻哈等,并且支持英语、中文、日语和韩语等多种语言。

    AI教程资讯 2023-04-14

  • VARGPT – 北大推出的多模态理解生成统一模型
    VARGPT – 北大推出的多模态理解生成统一模型

    VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构基础上进行扩展,通过next-token预测实现视觉理解,通过next-scale预测实现视觉生成,能高效处理混合模态输入和输出。

    AI教程资讯 2023-04-14

  • SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
    SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

    SpeechGPT 2 0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。

    AI教程资讯 2023-04-14

  • LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架
    LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架

    LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领域规范、标准建立、基准数据集创建、评估规则构建以及评估结果的分析和解释。

    AI教程资讯 2023-04-14

最新录入 更多+
确定