TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型-爱论文

TANGOFLUX是什么

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设计大学（SUTD）和NVIDIA共同推出的。模型拥有约5.15亿参数，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization（CRPO）框架，基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能，在GitHub等平台开源代码和模型，支持进一步的研究。

TANGOFLUX的主要功能

高效音频生成：TANGOFLUX能快速生成高质量的音频内容，在3.7秒内生成长达30秒的44.1kHz音频。文本到音频转换：模型直接将文本描述转换为相应的音频输出，实现文本到音频的直接转换。偏好优化：TANGOFLUX能优化音频输出更好地符合用户的偏好和输入文本的意图。非专有数据训练：基于非专有数据集进行训练，让模型更加开放和可访问。

TANGOFLUX的技术原理

变分自编码器：用VAE将音频波形编码成潜在的表示，从潜在表示中重构原始音频。文本和时长嵌入：模型基于文本编码和时长编码来控制生成音频的内容和时长，实现对音频的可控生成。FluxTransformer架构：基于FluxTransformer块构建，结合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)，处理文本提示和生成音频。流匹配（Flow Matching, FM）：基于流匹配框架，学习从简单先验分布到复杂目标分布的映射，生成样本。CLAP-Ranked Preference Optimization (CRPO)：CRPO框架基于迭代生成偏好数据对，优化音频对齐。用CLAP模型作为代理奖励模型，基于文本和音频的联合嵌入来评估音频输出的质量，并据此构建偏好数据集，进行偏好优化。直接偏好优化：TANGOFLUX将DPO应用于流匹配，比较获胜和失败的音频样本来优化模型，提高音频与文本描述的对齐度。

TANGOFLUX的项目地址

项目官网：tangoflux.github.ioGitHub仓库：https://github.com/declare-lab/TangoFluxHuggingFace模型库：https://huggingface.co/declare-lab/TangoFluxarXiv技术论文：https://export.arxiv.org/pdf/2412.21037在线体验Demo：https://huggingface.co/spaces/declare-lab/TangoFlux

TANGOFLUX的应用场景

多媒体内容创作：在电影、游戏、广告和视频制作中，用在生成背景音乐、声效和配音，提高制作效率并降低成本。音频制作和设计：音乐制作人和声音设计师创作新的音乐作品或设计特定的声音效果。播客和有声书：为播客或有声书自动生成背景音乐和声效，增强听众的听觉体验。教育和培训：在教育领域，创建模拟真实场景的音频，辅助语言学习或专业技能训练。虚拟助手和聊天机器人：为虚拟助手和聊天机器人提供更自然、更丰富的语音响应，提升用户交互体验。