当前位置: 网站首页 >AI教程资讯 >正文

MuCodec – 清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

来源:爱论文 时间:2025-01-31 23:37:53

MuCodec是什么

MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器,能实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,用RVQ技术进行特征离散化,并基于流匹配方法重建Mel-VAE特征。最终,用预训练的Mel-VAE解码器和HiFi-GAN生成重建后的音乐,能在0.35kbps至1.35kbps的比特率下达到业界领先的压缩效率和音质。

MuCodec

MuCodec的主要功能

音乐压缩:MuCodec能在极地的比特率下对音乐进行有效压缩,支持0.35kbps的超低比特率。音乐重建:在超低比特率下,能重建出高保真的音乐。特征提取:用MuEncoder提取音乐的声学和语义特征,捕捉音乐的本质特性。离散化处理:基于RVQ(Residual Vector Quantization)技术对提取的特征进行离散化处理,便于压缩。流匹配重建:用流匹配方法重建Mel-VAE特征,实现更精细的音频重建。双比特率支持:能在低比特率(0.35kbps)和高比特率(1.35kbps)下工作,提供灵活的应用选择。

MuCodec的技术原理

MuEncoder:用MuEncoder作为特征提取器,基于音乐的两个关键方面——人声和背景音乐,提取声学和语义特征。两阶段训练:第一阶段:用掩码语言模型(Mask Language Model)约束学习预测掩码区域,基于未掩码的语音信号,让MuEncoder能感知上下文信息,增强表征能力。第二阶段:引入重建和歌词识别约束,包括Mel频谱图和CQT(Constant-Q Transform)特征的重建,及确保提取的特征包含语义信息的歌词识别。RVQ(Residual Vector Quantization):选择RVQ来离散化MuEncoder特征,基于残差过程压缩表示,并用级联码本提供更精细的近似。流匹配:用基于流匹配的方法进行重建,这种方法相比GAN(Generative Adversarial Networks)方法训练更稳定,且需要更少的训练步骤就能在超低比特率重建任务中取得更好的结果。流匹配用离散化的MuEncoder表示作为条件,基于Diffusion Transformer进行细粒度重建。Mel-VAE解码器和HiFi-GAN:重建的Mel频谱图通过预训练的Mel-VAE解码器恢复,最终用预训练的HiFi-GAN生成重建后的音乐。

MuCodec的项目地址

项目官网:xuyaoxun.github.io/MuCodec_demoGitHub仓库:https://github.com/xuyaoxun/MuCodecarXiv技术论文:https://arxiv.org/pdf/2409.13216

MuCodec的应用场景

在线音乐流媒体服务:在保持音质的同时显著减少音乐文件的大小,在线音乐流媒体服务提供商能减少存储和带宽成本。音乐下载:用户下载更小体积的音乐文件,节省存储空间,同时在移动设备上减少数据消耗。语言模型建设:在构建需要短序列音乐数据的语言模型时,有效压缩音乐数据,提高处理效率。音频编辑和处理软件:音频编辑软件集成MuCodec作为音频压缩和重建的工具,提供更高效的音频处理功能。移动设备和嵌入式系统:在存储和计算资源受限的移动设备或嵌入式系统中,在保持音质的同时减少资源消耗。
上一篇:Find3D – 加州理工学院推出的3D部件分割模型
相关资讯 更多+
  • MuCodec – 清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
    MuCodec – 清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

    MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器,能实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,用RVQ技术进行特征离散化,并基于流匹配方法重建Mel-VAE特征。

    AI教程资讯 2023-04-14

  • Find3D – 加州理工学院推出的3D部件分割模型
    Find3D – 加州理工学院推出的3D部件分割模型

    Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并用对比训练方法训练一个可扩展的3D模型。

    AI教程资讯 2023-04-14

  • Sketch2Lineart – AI绘画工具,自动将手绘草图转换成清晰的线条画
    Sketch2Lineart – AI绘画工具,自动将手绘草图转换成清晰的线条画

    Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户只需上传草图,可在线预览下载转换后的线条画。

    AI教程资讯 2023-04-14

  • Fancy123 – 华中科技和华南理工推出的3D网格生成技术
    Fancy123 – 华中科技和华南理工推出的3D网格生成技术

    Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,分别解决多视图图像的局部不一致性、提高网格对输入图像的保真度及确保高清晰度。

    AI教程资讯 2023-04-14

最新录入 更多+
确定