当前位置: 网站首页 >AI教程资讯 >正文

MultiFoley – Adobe 联合密歇根大学推出的音效生成系统

来源:爱论文 时间:2025-01-30 20:32:23

MultiFoley是什么

MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成与视频同步的声音,增强视频观看体验。MultiFoley联合训练互联网视频数据集和专业声音效果录音,实现高质量、全带宽(48kHz)的音频生成。MultiFoley能为视频制作提供灵活的声音设计控制,帮助用户创作出既干净又富有创意的音效。

MultiFoley

MultiFoley的主要功能

文本控制的Foley生成:用文本提示引导和生成与视频同步的声音效果,是现实声音或创意声音。音频控制的Foley生成:支持用户从声音效果库中选择参考音频,将声音应用到无声视频中,并与视频同步。Foley音频扩展:将部分音频轨道扩展,产生完整的Foley声音。质量控制:基于在文本中加入质量标签,生成高质量的全频带(48kHz)音频。多模态控制:结合文本、音频和视频的条件信号,提供细致的声音设计控制。

MultiFoley的技术原理

联合训练:在互联网视频数据集(低质量音频)和专业声音效果(SFX)录音上进行训练,生成高质量的全频带音频。扩散变换器(Diffusion Transformer):基于扩散模型从随机噪声生成新样本,用在视频引导的Foley声音生成,并结合多模态控制。高质量音频自编码器(DAC-VAE):基于变分自编码器(VAE),将48kHz的音频波形编码成40Hz的潜在特征,用在音频-视频同步。冻结视频编码器:用在音频-视频同步,将视频编码成特征并与音频潜在编码一起使用。多条件训练策略:让模型灵活地支持下游任务,如音频扩展和文本驱动的声音设计。多头注意力机制:增强模型的表达能力,并行学习不同类型的特征或依赖关系。

MultiFoley的项目地址

项目官网:ificl.github.io/MultiFoleyarXiv技术论文:https://arxiv.org/pdf/2411.17698

MultiFoley的应用场景

电影和视频制作:在电影制作中,生成与画面动作同步的声音效果,如脚步声、关门声等,增强观众的沉浸感。游戏开发:在游戏中,为不同的游戏环境和动作生成逼真的声音,提升游戏体验。动画制作:对于动画,根据动画角色的动作生成相应的声音,让动画更加生动。广告制作:在广告行业中,根据广告创意生成吸引眼球的声音效果,增加广告的吸引力。虚拟现实(VR):在VR体验中,生成与虚拟环境同步的声音,提高用户的沉浸感和体验质量。
上一篇:CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法
相关资讯 更多+
  • MultiFoley – Adobe 联合密歇根大学推出的音效生成系统
    MultiFoley – Adobe 联合密歇根大学推出的音效生成系统

    MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成与视频同步的声音,从而增强视频观看体验。

    AI教程资讯 2023-04-14

  • CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法
    CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

    CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指定的相机姿态和时间点合成新视图,并将单目视频转换为多视图视频,从而实现稳健的4D重建。

    AI教程资讯 2023-04-14

  • Make-It-Animatable – 中科大联合腾讯推出的自动生成即时动画准备资产
    Make-It-Animatable – 中科大联合腾讯推出的自动生成即时动画准备资产

    Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换,支持多种3D表示,包括网格和3D高斯斑点。

    AI教程资讯 2023-04-14

  • Co-op Translator – 微软推出面向开发者的开源多语言翻译工具
    Co-op Translator – 微软推出面向开发者的开源多语言翻译工具

    Co-op Translator是微软推出的开源翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容,生成组织良好的多语言翻译文件夹结构,自动调整链接,并保持Markdown文件的完整性。

    AI教程资讯 2023-04-14

最新录入 更多+
确定