当前位置: 网站首页 >AI教程资讯 >正文

TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

来源:爱论文 时间:2025-04-10 11:13:25

TicVoice 7.0是什么

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分解为 Global Token 和 Semantic Tokens,实现音色与语义的精准控制,与文本 LLMs 结构高度统一。引擎具备 3 秒语音克隆能力,支持多角色、多情绪、全龄段和中英切换,声音自然流畅,接近广播级水平。TicVoice 7.0 已在魔音工坊 “3s声音克隆” 功能上线,广泛适用于智能客服、有声书、影视配音等领域,为用户带来极致的 AI 配音体验。

TicVoice 7.0

TicVoice 7.0的主要功能

 3秒语音克隆:3秒捕捉用户声纹,精准复刻个性化音色,支持低质量音频输入。多角色与多情绪演绎:支持开心、生气、伤心等多种情绪模拟,增强内容表现力。全龄段声音适配:涵盖从儿童到老年人的多样化音色,满足不同场景需求。中英灵活切换:支持中英文混合语音合成,助力多语言内容创作。广播级语音质量:合成语音清晰流畅、自然动听,音色与情感表现力强,接近专业广播水平。定制化专属声音:用户根据需求定制专属音色,满足个性化配音需求。

TicVoice 7.0的技术原理

创新语音编码方式:基于 BiCodec 技术,将语音分解为 Global Token(全局特征,如音色)和 Semantic Tokens(语义相关特征,50 tokens/秒),兼顾全局可控性和语义关联性。解决传统语音编码中语义 token 难以精准控制音色及声学编码依赖多个码本的问题。与文本 LLMs 结构统一:复用 Qwen2.5 的架构,基于属性标签(如性别、基频等级)和细粒度属性值(如精确基频),用文本+属性标签为输入,依次预测细粒度属性值 → Global Tokens → Semantic Tokens。实现语音 token 建模与文本 token 建模的高度一致。单阶段、单流生成:用语言模型(序列猴子)以单阶段、单流方式实现 TTS 生成,无需额外生成模型辅助,提升生成效率和可控性。基于深度学习的语音合成:基于深度学习技术,结合大量语音数据训练模型,实现自然流畅的语音合成效果。

TicVoice 7.0的项目地址

项目官网:魔音工坊

TicVoice 7.0的应用场景

智能客服:为在线客服系统提供自然流畅的语音交互能力,提升用户体验,降低人力成本。有声读物与播客:快速生成高质量的有声书、播客内容,支持多角色和情感表达,增强听众的沉浸感。影视配音与解说:高效完成影视、短视频的配音和解说工作,支持多语言切换,降低制作成本。情感直播与互动:在直播中模拟真实情感,增强主播与观众的互动性,提升内容吸引力。教育与培训:为在线教育平台提供生动的语音教学内容,支持多语言和多角色,提升学习体验。
上一篇:GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型
相关资讯 更多+
  • TicVoice 7.0 – 出门问问推出的第七代语音合成引擎
    TicVoice 7.0 – 出门问问推出的第七代语音合成引擎

    TicVoice 7 0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7 0基于创新的 BiCodec 编码方式,将语音分解为 Global Token 和 Semantic Tokens,实现音色与语义的精准控制,与文本 LLMs 结构高度统一。

    AI教程资讯 2023-04-14

  • GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型
    GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

    GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存指导视频生成,用输入图像或视频帧的深度估计反投影生成 3D 场景,根据用户提供的相机轨迹渲染 2D 视频,作为生成模型的条件输入。

    AI教程资讯 2023-04-14

  • Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型
    Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型

    Mercury Coder 是 Inception Labs 推出的首个扩散型大语言模型(dLLM),是 Mercury 系列中专门用在代码生成的模型。Mercury Coder基于“从粗到细”的生成方式,突破传统自回归模型的顺序生成限制,速度可达每秒1000个token以上,比现有优化型模型快5-10倍。

    AI教程资讯 2023-04-14

  • GCDance – 萨里大学和江南大学推出的3D舞蹈生成框架
    GCDance – 萨里大学和江南大学推出的3D舞蹈生成框架

    GCDance(Genre-Controlled 3D Full Body Dance Generation Driven by Music)是英国萨里大学和江南大学推出的3D舞蹈生成框架,能根据音乐和文本提示生成符合特定风格的全身舞蹈序列。GCDance结合预训练的音乐基础模型(如Wav2CLIP)提取的高级音乐特征和手工设计的音乐特征(如STFT),实现多粒度音乐特征融合,用CLIP模型将文本提示嵌入到舞蹈生成的每个时间步中,实现风格可控的舞蹈生成。

    AI教程资讯 2023-04-14

最新录入 更多+
确定