当前位置: 网站首页 >AI教程资讯 >正文

SongCreator – AI音乐模型,能理解、生成和编辑歌曲

来源:爱论文 时间:2025-02-01 21:34:57

SongCreator是什么

SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型,能从歌词出发生成包含声乐和伴奏的完整歌曲。基于双序列语言模型(DSLM)和注意力掩码策略,理解和生成各种相关的歌曲生成任务,包括编辑和生成。SongCreator在多项任务中表现出色,特别是在歌词到歌曲和歌词到声乐的任务上,能独立控制生成歌曲中声乐和伴奏的声学条件。

SongCreator

SongCreator的主要功能

歌词到歌曲(Lyrics-to-Song):根据提供的歌词生成包含声乐和伴奏的完整歌曲。歌词到声乐(Lyrics-to-Vocals):基于歌词生成声乐部分,不包含伴奏。伴奏到歌曲(Accompaniment-to-Song):给定伴奏,生成与伴奏协调的声乐部分,形成完整的歌曲。声乐到歌曲(Vocals-to-Song):给定声乐部分,生成伴奏,构成完整的歌曲。歌曲编辑(Song Editing):在现有歌曲中修改特定段落,匹配目标歌词,同时保持与原歌曲的连贯性。声乐编辑(Vocals Editing):编辑歌曲中的声乐部分,而不改变伴奏。音乐延续(Music Continuation):基于一段伴奏或声乐,生成音乐的连续部分。无条件音乐生成:在没有歌词的情况下生成音乐或声乐。

SongCreator的技术原理

双序列语言模型(DSLM):用DSLM捕捉声乐和伴奏的信息。模型包括两个解码器,分别针对声乐和伴奏,通过动态双向交叉注意力模块捕捉两者之间的相互影响。注意力掩码策略:设计一系列注意力掩码策略。策略支持模型在不同的歌曲生成任务中,如编辑、理解和生成,用统一的方式工作。多任务训练:基于多任务训练提升其在作曲、编曲和理解方面的能力,使其能处理各种复杂的音乐场景。条件信号:接受多种可选输入,包括歌词、声乐提示、伴奏提示等,使其在生成歌曲时具有高度的灵活性和可控性。语义令牌(Semantic Tokens):用BEST-RQ模型在未标记的数据集上训练,基于向量量化提取歌曲的语义令牌,令牌包含重建歌曲所需的语义和声学细节。潜在扩散模型(Latent Diffusion Model, LDM):用LDM将语义令牌解码成高质量的歌曲音频,模型由变分自编码器(VAE)和扩散模型组成,用在生成高保真度和音乐性的音乐。

SongCreator的项目地址

项目官网:songcreator.github.ioarXiv技术论文:https://arxiv.org/pdf/2409.06029

SongCreator的应用场景

音乐制作:音乐制作人和作曲家生成歌曲的小样,快速原型设计,或在创作过程中寻找灵感。教育和学习:在音乐教育中,作为教学工具,帮助学生理解歌曲结构,学习作曲和编曲。娱乐和游戏:在视频游戏和互动媒体中,根据游戏情境实时生成背景音乐,提升玩家的沉浸感。内容创作:视频内容创作者和播客为项目定制原创音乐,而无需聘请专业的音乐家。广告和营销:广告行业快速生成符合品牌形象和广告概念的配乐。
上一篇:Teacher2Task – 谷歌推出的多教师学习框架
相关资讯 更多+
  • SongCreator – AI音乐模型,能理解、生成和编辑歌曲
    SongCreator – AI音乐模型,能理解、生成和编辑歌曲

    SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型,能从歌词出发生成包含声乐和伴奏的完整歌曲。

    AI教程资讯 2023-04-14

  • Teacher2Task – 谷歌推出的多教师学习框架
    Teacher2Task – 谷歌推出的多教师学习框架

    Teacher2Task是谷歌团队推出的多教师学习框架,引入教师特定的输入标记和重新构思训练过程,消除对手动聚合启发式方法的需求。框架不依赖聚合标签,将训练数据转化为N+1个任务,包括N个辅助任务预测每位教师的标记风格,及一个主要任务关注真实标签。

    AI教程资讯 2023-04-14

  • DynaSaur – Adobe 推出的大语言模型代理框架
    DynaSaur – Adobe 推出的大语言模型代理框架

    DynaSaur是Adobe Research推出的大型语言模型(LLM)代理框架,突破传统LLM代理系统受限于预定义动作集合的限制。框架支持代理动态创建和组合动作,基于生成和执行Python代码与环境互动,实现更灵活的问题解决。DynaSaur能积累生成的动作,构建可重用的函数库,提高未来任务的效率和适应性。

    AI教程资讯 2023-04-14

  • Takin AudioLLM – 喜马拉雅推出的系列零样本语音生成模型
    Takin AudioLLM – 喜马拉雅推出的系列零样本语音生成模型

    Takin AudioLLM是喜马拉雅Everest团队推出的一系列高质量零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型语言模型技术,专注于有声书制作,能生成接近真人的高保真语音,支持个性化定制。Takin TTS用在生成富有表现力的音频内容,Takin VC负责声音的音色转换,Takin Morphing提供声音风格转换功能。

    AI教程资讯 2023-04-14

最新录入 更多+
确定