SongCreator – AI音乐模型，能理解、生成和编辑歌曲-爱论文

SongCreator是什么

SongCreator是清华大学深圳国际研究生院、香港中文大学等机构推出的AI音乐生成模型，能从歌词出发生成包含声乐和伴奏的完整歌曲。基于双序列语言模型（DSLM）和注意力掩码策略，理解和生成各种相关的歌曲生成任务，包括编辑和生成。SongCreator在多项任务中表现出色，特别是在歌词到歌曲和歌词到声乐的任务上，能独立控制生成歌曲中声乐和伴奏的声学条件。

SongCreator的主要功能

歌词到歌曲（Lyrics-to-Song）：根据提供的歌词生成包含声乐和伴奏的完整歌曲。歌词到声乐（Lyrics-to-Vocals）：基于歌词生成声乐部分，不包含伴奏。伴奏到歌曲（Accompaniment-to-Song）：给定伴奏，生成与伴奏协调的声乐部分，形成完整的歌曲。声乐到歌曲（Vocals-to-Song）：给定声乐部分，生成伴奏，构成完整的歌曲。歌曲编辑（Song Editing）：在现有歌曲中修改特定段落，匹配目标歌词，同时保持与原歌曲的连贯性。声乐编辑（Vocals Editing）：编辑歌曲中的声乐部分，而不改变伴奏。音乐延续（Music Continuation）：基于一段伴奏或声乐，生成音乐的连续部分。无条件音乐生成：在没有歌词的情况下生成音乐或声乐。

SongCreator的技术原理

双序列语言模型（DSLM）：用DSLM捕捉声乐和伴奏的信息。模型包括两个解码器，分别针对声乐和伴奏，通过动态双向交叉注意力模块捕捉两者之间的相互影响。注意力掩码策略：设计一系列注意力掩码策略。策略支持模型在不同的歌曲生成任务中，如编辑、理解和生成，用统一的方式工作。多任务训练：基于多任务训练提升其在作曲、编曲和理解方面的能力，使其能处理各种复杂的音乐场景。条件信号：接受多种可选输入，包括歌词、声乐提示、伴奏提示等，使其在生成歌曲时具有高度的灵活性和可控性。语义令牌（Semantic Tokens）：用BEST-RQ模型在未标记的数据集上训练，基于向量量化提取歌曲的语义令牌，令牌包含重建歌曲所需的语义和声学细节。潜在扩散模型（Latent Diffusion Model, LDM）：用LDM将语义令牌解码成高质量的歌曲音频，模型由变分自编码器（VAE）和扩散模型组成，用在生成高保真度和音乐性的音乐。

SongCreator的项目地址

项目官网：songcreator.github.ioarXiv技术论文：https://arxiv.org/pdf/2409.06029

SongCreator的应用场景

音乐制作：音乐制作人和作曲家生成歌曲的小样，快速原型设计，或在创作过程中寻找灵感。教育和学习：在音乐教育中，作为教学工具，帮助学生理解歌曲结构，学习作曲和编曲。娱乐和游戏：在视频游戏和互动媒体中，根据游戏情境实时生成背景音乐，提升玩家的沉浸感。内容创作：视频内容创作者和播客为项目定制原创音乐，而无需聘请专业的音乐家。广告和营销：广告行业快速生成符合品牌形象和广告概念的配乐。