GTSinger – 浙大开源的大型多语言高质量歌声数据集-爱论文

GTSinger是什么

GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集，旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声，涵盖九种不同语言（汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利），由20位专业歌手演唱，提供丰富的音色和风格多样性。GTSinger注重歌唱技巧的控制和建模，提供六种常用歌唱技巧的对照组和音素级标注。GTSinger提供真实乐谱，有助于实际音乐创作。数据集包括人工音素对齐、全局风格标签和配对朗读数据，适应各种歌声任务。

GTSinger的主要功能

多语言歌声数据集：GTSinger包含九种不同语言的歌声，提供多样化的音色和风格，支持跨语言的歌声合成和分析。歌唱技巧控制：数据集提供六种常用歌唱技巧的对照组和音素级标注，研究者能更好地建模和控制歌声中的技巧。真实乐谱支持：提供与歌声相匹配的真实乐谱，将歌声合成技术应用于实际音乐创作非常有帮助。多任务适配：GTSinger设计支持多种歌声任务，包括歌声合成、技巧识别、风格迁移和语音到歌声的转换。基准测试：提供基准测试，评估数据集在不同歌声任务上的表现和适用性。

GTSinger的技术原理

高质量音频录制：GTSinger的数据集是在专业录音棚中录制专业歌手的歌声构建的，确保音频数据的高质量。音素对齐和标注：基于音乐信息检索技术，如MFA和Praat，进行音素对齐和标注，实现音素级的精确控制。歌唱技巧标注：基于专家听感和音频分析技术，对歌声中的歌唱技巧进行标注，便于模型学习和控制。乐谱生成：结合音频信号处理技术和音乐理论知识，从歌声中提取音高信息，转换为MIDI形式的乐谱，再由专家调整为真实乐谱。数据集构建和验证：基于人工审核和后续处理，确保数据集的质量和适用性，包括音频片段的语义分割和无声区域的处理。

GTSinger的项目地址

项目官网：gtsinger.github.ioGitHub仓库：https://github.com/GTSinger/GTSingerHuggingFace模型库：https://huggingface.co/datasets/GTSinger/GTSingerarXiv技术论文：https://arxiv.org/pdf/2409.13832

GTSinger的应用场景

歌声合成：基于数据集中的歌声样本和技巧标注，开发出合成具有特定技巧和风格的高质量歌声的系统。歌声技巧识别：分析歌声中的音素级技巧标注，训练模型识别和分类不同的歌声技巧。歌声风格迁移：将一种风格的歌声转换为另一种风格，例如将流行歌曲的歌声转换为古典风格。语音到歌声的转换（Speech-to-Singing, STS）：将普通语音转换为旋律化的歌声，用在语音合成和音乐创作。音乐教育：基于数据集中的真实乐谱和歌声样本，开发音乐教学工具，帮助学生学习和练习唱歌技巧。