当前位置: 网站首页 >AI教程资讯 >正文

Hibiki – Kyutai Labs 推出的实时语音翻译模型

来源:爱论文 时间:2025-03-21 16:14:18

Hibiki是什么

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。Hibiki用弱监督学习方法,基于文本翻译系统的困惑度识别单词级的最佳延迟,创建对齐的合成数据进行训练。Hibiki模型在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度,支持批量翻译和实时设备端部署,展现了强大的实用潜力。

Hibiki

Hibiki的主要功能

实时语音到语音翻译(S2ST):将一种语言的语音实时翻译成另一种语言的语音,保留说话者的音色和语调。实时语音到文本翻译(S2TT):将语音实时翻译成目标语言的文本,提供更灵活的使用场景。低延迟翻译:基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。支持批量和实时部署:推理过程简单,支持批量处理和实时设备端部署,适合大规模应用。

Hibiki的技术原理

多流语言模型架构:同步处理:同时接收源语音和生成目标语音,基于多流架构联合建模两个音频流。文本和音频标记:模型预测文本和音频标记的层次结构,实现语音到文本和语音到语音的翻译。因果音频编解码器:用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。弱监督学习与上下文对齐:合成数据生成:基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。上下文对齐:用现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文同步。静音插入与对齐感知TTS:基于插入静音或用对齐感知的TTS模型重新合成目标语音,确保目标语音的延迟符合实时翻译的要求。说话者相似性与分类器自由引导:说话者相似性标记:对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。分类器自由引导:调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。高效的推理过程:温度采样:用温度采样技术,结合因果音频编解码器,实现流式输入和输出。批量处理与实时部署:推理过程简单高效,支持批量处理和实时设备端部署,适合大规模应用场景。

Hibiki的项目地址

GitHub仓库:https://github.com/kyutai-labs/hibikiHuggingFace模型库:https://huggingface.co/collections/kyutai/hibikiarXiv技术论文:https://arxiv.org/pdf/2502.03382

Hibiki的应用场景

国际会议:实时翻译不同语言的发言,帮助参会者即时理解内容。在线教育:将教师的授课语音实时翻译,方便学生无障碍学习。旅游出行:实时翻译导游讲解或与当地人交流,增强旅游体验。新闻采访:帮助记者快速翻译采访内容,提升报道效率。 客户服务:实现多语言客服沟通,提升客户满意度。
上一篇:HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
相关资讯 更多+
  • Hibiki – Kyutai Labs 推出的实时语音翻译模型
    Hibiki – Kyutai Labs 推出的实时语音翻译模型

    Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。

    AI教程资讯 2023-04-14

  • HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
    HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

    HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用不同机器人实体、领域和任务中的观测和动作序列,结合掩码自回归技术生成视频预测。

    AI教程资讯 2023-04-14

  • DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具
    DeepRant 鲸喷 – 专为游戏玩家设计的多语言快捷翻译开源工具

    DeepRant(中文名:鲸喷)是专为游戏玩家设计的多语言快捷翻译工具。DeepRant能够帮助玩家在国际服务器中快速进行文字交流,消除语言障碍。玩家在游戏中选中文字后按下快捷键,翻译结果自动复制到剪贴板,方便在游戏中直接使用。

    AI教程资讯 2023-04-14

  • StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像
    StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像

    StochSync(Stochastic Diffusion Synchronization)是创新的图像生成技术,专门用于在复杂空间(如360°全景图或3D表面纹理)中生成高质量图像。结合了扩散同步(DS)和分数蒸馏采样(SDS)的优势,通过在扩散模型的逆生成过程中引入最大随机性,兼顾图像细节与连贯性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定