TANGOFLUX是什么
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。

来源:爱论文 时间:2025-01-15 22:03:56
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。
TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5 15亿参数,能在单个A40 GPU上仅用3 7秒生成长达30秒的44 1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。
AI教程资讯
2023-04-14
MMedAgent是专为医疗领域设计的多模态AI智能体,通过整合各种开源医疗模型来管理多种医疗任务。系统包括一个指令调整的多模态大型语言模型(MLLM),作为行动规划器和结果聚合器,以及一套为代理量身定制的医疗工具集合,每个工具都针对医疗领域的特定任务。
AI教程资讯
2023-04-14
VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型(LLM),能全面理解和处理静态图像与动态视频,对图像和视频进行理解、生成、分割和编辑。VITRON结合前端的视觉编码器和后端的视觉专家系统,支持从视觉理解到视觉生成的多种任务。
AI教程资讯
2023-04-14
n8n是开源的自动化工作流管理系统,提供一个低代码平台,支持用户用拖放的方式创建复杂的工作流,无需编写代码。n8n支持400多个应用程序和服务的集成,包括AI组件,让自动化各种业务流程变得简单。n8n基于Docker容器化部署,易于扩展和维护,适用于数据同步、客户关系管理、IT自动化等多种业务场景。
AI教程资讯
2023-04-14