当前位置: 网站首页 >AI教程资讯 >正文

GTSinger – 浙大开源的大型多语言高质量歌声数据集

来源:爱论文 时间:2025-02-20 11:06:44

GTSinger是什么

GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80.59小时的专业录音棚录制的歌声,涵盖九种不同语言(汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利),由20位专业歌手演唱,提供丰富的音色和风格多样性。GTSinger注重歌唱技巧的控制和建模,提供六种常用歌唱技巧的对照组和音素级标注。GTSinger提供真实乐谱,有助于实际音乐创作。数据集包括人工音素对齐、全局风格标签和配对朗读数据,适应各种歌声任务。

GTSinger

GTSinger的主要功能

多语言歌声数据集:GTSinger包含九种不同语言的歌声,提供多样化的音色和风格,支持跨语言的歌声合成和分析。歌唱技巧控制:数据集提供六种常用歌唱技巧的对照组和音素级标注,研究者能更好地建模和控制歌声中的技巧。真实乐谱支持:提供与歌声相匹配的真实乐谱,将歌声合成技术应用于实际音乐创作非常有帮助。多任务适配:GTSinger设计支持多种歌声任务,包括歌声合成、技巧识别、风格迁移和语音到歌声的转换。基准测试:提供基准测试,评估数据集在不同歌声任务上的表现和适用性。

GTSinger的技术原理

高质量音频录制:GTSinger的数据集是在专业录音棚中录制专业歌手的歌声构建的,确保音频数据的高质量。音素对齐和标注:基于音乐信息检索技术,如MFA和Praat,进行音素对齐和标注,实现音素级的精确控制。歌唱技巧标注:基于专家听感和音频分析技术,对歌声中的歌唱技巧进行标注,便于模型学习和控制。乐谱生成:结合音频信号处理技术和音乐理论知识,从歌声中提取音高信息,转换为MIDI形式的乐谱,再由专家调整为真实乐谱。数据集构建和验证:基于人工审核和后续处理,确保数据集的质量和适用性,包括音频片段的语义分割和无声区域的处理。

GTSinger的项目地址

项目官网:gtsinger.github.ioGitHub仓库:https://github.com/GTSinger/GTSingerHuggingFace模型库:https://huggingface.co/datasets/GTSinger/GTSingerarXiv技术论文:https://arxiv.org/pdf/2409.13832

GTSinger的应用场景

歌声合成:基于数据集中的歌声样本和技巧标注,开发出合成具有特定技巧和风格的高质量歌声的系统。歌声技巧识别:分析歌声中的音素级技巧标注,训练模型识别和分类不同的歌声技巧。歌声风格迁移:将一种风格的歌声转换为另一种风格,例如将流行歌曲的歌声转换为古典风格。语音到歌声的转换(Speech-to-Singing, STS):将普通语音转换为旋律化的歌声,用在语音合成和音乐创作。音乐教育:基于数据集中的真实乐谱和歌声样本,开发音乐教学工具,帮助学生学习和练习唱歌技巧。
上一篇:LightRAG – 香港大学推出的开源检索增强生成系统
相关资讯 更多+
  • GTSinger – 浙大开源的大型多语言高质量歌声数据集
    GTSinger – 浙大开源的大型多语言高质量歌声数据集

    GTSinger是由浙江大学研究团队推出的大型开源高质量歌声数据集,旨在支持多样化的歌声任务。GTSinger包含80 59小时的专业录音棚录制的歌声,涵盖九种不同语言(汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利),由20位专业歌手演唱,提供丰富的音色和风格多样性。

    AI教程资讯 2023-04-14

  • LightRAG – 香港大学推出的开源检索增强生成系统
    LightRAG – 香港大学推出的开源检索增强生成系统

    LightRAG是由香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统,基于整合图结构索引和双层检索机制,提升大型语言模型在信息检索中的准确性和效率。系统能捕捉实体间的复杂依赖关系,全面理解信息,处理具体和抽象查询,确保用户获得既相关又丰富的响应。

    AI教程资讯 2023-04-14

  • Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略
    Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略

    Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。

    AI教程资讯 2023-04-14

  • T2V-Turbo – 谷歌开源的文本到视频生成模型
    T2V-Turbo – 谷歌开源的文本到视频生成模型

    T2V-Turbo是一种先进的文本到视频生成模型,由Google、UC Santa Barbara(加利福尼亚大学圣塔芭芭拉分校)、和University of Waterloo(滑铁卢大学)的研究人员共同推出。基于在预训练的T2V模型的一致性蒸馏过程中整合来自多种可微分奖励模型的反馈,实现快速且高质量的视频生成。

    AI教程资讯 2023-04-14

最新录入 更多+
确定