当前位置: 网站首页 >AI教程资讯 >正文

MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

来源:爱论文 时间:2025-02-14 15:04:35

MaskGCT是什么

MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平,某些性能指标甚至超过人类。MaskGCT能快速且逼真地克隆声音,灵活调整语音的持续时间、速度和情感,支持中文、英文、日文、韩文、法文和德文等六种语言的合成。模型已在Amphion系统中开源,面向全球用户开放使用。

MaskGCT

MaskGCT的主要功能

声音克隆:能快速复刻任意音色,包括人类、动漫角色等,且能完整地复制语调、风格和情感。跨语种合成:支持多种语言的语音合成,包括中文、英文、日文、韩文、法文和德文等,实现跨语言的语音生成。语音控制:灵活调整生成语音的长度、语速和情绪,支持用编辑文本编辑语音内容,保持韵律和音色的一致性。高质量语音数据集:训练于高质量的多语种语音数据集Emilia,提供丰富的语音合成素材。

MaskGCT的技术原理

语音语义表示编解码器:将语音转换为语义标记,用VQ-VAE模型学习向量量化码本,从语音自监督学习模型中重建语音语义表示。语音声学编解码器:将语音波形量化为多层离散标记,保留语音的所有信息,用RVQ方法压缩语音波形,用Vocos架构作为解码器。文本到语义模型:用非自回归掩码生成Transformer,不依赖文本到语音的对齐信息,基于语言模型的上下文学习能力预测语义标记。语义到声学模型:用非自回归掩码生成Transformer,语义标记为条件生成多层声学标记序列,重建高质量语音波形。

MaskGCT的项目地址

GitHub仓库:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgctHuggingFace模型库:https://huggingface.co/amphion/MaskGCTarXiv技术论文:https://arxiv.org/pdf/2409.00750v2公测版地址(趣丸千音):https://voice.funnycp.com/

MaskGCT的应用场景

有声读物和播客:用MaskGCT生成的高质量语音,为电子书、有声读物和播客节目提供自然的朗读声音,提升听众的听觉体验。智能助手和聊天机器人:在智能设备和客服系统中,MaskGCT提供更加自然和个性化的语音交互体验。视频游戏和虚拟现实:在游戏和虚拟现实应用中,MaskGCT为角色生成逼真的语音,增强沉浸感。影视制作和配音:在影视后期制作中,MaskGCT快速生成或替换角色的语音,提高制作效率。语言学习和教育:MaskGCT生成标准或特定口音的语音,辅助语言学习者练习发音和听力。
上一篇:GLM-4-Voice – 智谱AI推出的端到端情感语音模型
相关资讯 更多+
  • MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型
    MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型

    MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任务上的显著效果。模型在多个TTS基准数据集上达到行业领先的水平,某些性能指标甚至超过人类。

    AI教程资讯 2023-04-14

  • GLM-4-Voice – 智谱AI推出的端到端情感语音模型
    GLM-4-Voice – 智谱AI推出的端到端情感语音模型

    GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐,理解和生成语音

    AI教程资讯 2023-04-14

  • Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏
    Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

    Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创造一个没有固定规则和边界的游戏体验。玩家与自己的虚拟角色互动,用自然语言指令引导角色在虚拟世界中探索、互动,形成连贯的故事线。

    AI教程资讯 2023-04-14

  • AutoGLM – 智谱AI推出的模拟人类操作手机的AI智能体
    AutoGLM – 智谱AI推出的模拟人类操作手机的AI智能体

    AutoGLM是智谱AI团队最新推出的 “Phone Use” AI智能体,基于图形用户界面(GUI)实现自主任务完成。AutoGLM能模拟人类在手机操作,执行如社交媒体互动、在线购物、酒店预订等任务。AutoGLM能接收简单的文字或语音指令,自动完成复杂的操作流程,无需用户手动干预。

    AI教程资讯 2023-04-14

最新录入 更多+
确定