当前位置: 网站首页 >AI教程资讯 >正文

CogSound – 智谱AI最新推出的音效模型

来源:爱论文 时间:2025-02-10 15:43:36

CogSound是什么

CogSound是智谱AI最新推出的音效模型,能为无声视频增添动人的音效。 基于GLM-4V的视频理解能力,CogSound能精准识别理解视频背后的语义和情感,为无声视频添加与之相匹配的音频内容,可以生成更复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。模型的推出标志着智谱AI在视频生成领域的技术进步,特别是在提升视频的多模态体验方面,增强视频的沉浸感和真实感。

CogSound的主要功能

生成与画面匹配的音效:CogSound能为视频生成与画面匹配的音效,提供更加丰富的视听体验。支持4K超高清视频生成:支持生成10秒、4K分辨率、60帧的超高清视频,同时匹配相应的音效。适应不同播放需求:支持任意比例的视频生成,以适应不同的播放需求,并为这些视频生成匹配的音效。多通道视频生成:同一指令/图片可以一次性生成4个视频,每个视频都有相应的音效。提升视频生成体验:通过添加音效,CogSound增强了视频内容的沉浸感和真实感,使视频生成的体验更加完整和生动。音效功能公测:CogSound的音效功能将很快上线公测(预计11月底),用户将在 智谱清影 中体验到由CogSound提供的音效生成服务。

CogSound的技术特点

基于Unet的潜空间扩散:高效音频生成:CogSound基于潜空间扩散模型(Latent Diffusion Model)将音频生成过程从高维原始空间转移到低维潜空间,有助于降低计算复杂度。优化的U-Net结构:作为扩散模型的核心框架,U-Net结构经过优化,能在保持生成音频的高质量和高效率的同时,提升音频合成过程的性能。分块时序对齐交叉注意力:加强音视频特征的关联性:通过引入分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,CogSound能优化视频长序列与音频特征之间的特征匹配。精确的音视频映射:通过学习帧级视频特征与音频特征之间的关系,实现精准的音视频映射,确保每一帧画面都能在音符中找到自己的位置,每一个音符也能在视频中精准呼应。旋转位置编码:提升时序建模精度:CogSound整合了旋转位置编码技术,为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,有助于提升时序一致性。连贯性和过渡自然性:旋转位置编码确保音频序列的连贯性和过渡自然性,在处理长时序任务时,能避免音频生成中的“断层”或“错位”。

CogSound的应用场景

视频内容创作:为视频内容创作者提供更加丰富的音效选择,增强视频的表现力。广告制作:在广告视频中加入匹配的音效,提升广告的吸引力和记忆点。影视后期:在影视后期制作中,为画面提供相应的音效支持,提高制作效率和质量。
上一篇:AgentSquare – 清华推出模块化智能体系统设计和搜索新框架
相关资讯 更多+
  • CogSound – 智谱AI最新推出的音效模型
    CogSound – 智谱AI最新推出的音效模型

    CogSound是智谱AI最新推出的音效模型,能为无声视频增添动人的音效。 基于GLM-4V的视频理解能力,CogSound能精准识别理解视频背后的语义和情感,为无声视频添加与之相匹配的音频内容,可以生成更复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

    AI教程资讯 2023-04-14

  • AgentSquare – 清华推出模块化智能体系统设计和搜索新框架
    AgentSquare – 清华推出模块化智能体系统设计和搜索新框架

    AgentSquare是清华大学团队推出自动搜索和优化大型语言模型(LLM)代理的框架。基于标准化的模块接口抽象,实现AI智能体的高速自我演化和自适应演进。框架包含任务规划、常识推理、工具使用和记忆学习四个核心模块,支持智能体针对不同任务场景的优化设计。

    AI教程资讯 2023-04-14

  • Fashion-VDM – 谷歌和华盛顿大学联合推出的虚拟试穿技术
    Fashion-VDM – 谷歌和华盛顿大学联合推出的虚拟试穿技术

    Fashion-VDM是谷歌和华盛顿大学共同推出的基于视频扩散模型(VDM)的虚拟试穿技术。能在给定服装图像和人物视频的情况下,生成人物穿着指定服装的高质量试穿视频,保留人物的身份和动作。Fashion-VDM基于扩散模型架构、分割分类器自由引导和渐进式时间训练策略,解决视频虚拟试穿中服装细节和时间一致性的问题。

    AI教程资讯 2023-04-14

  • olly.bot – 个人AI助理,集成多种通用AI能力支持本地使用
    olly.bot – 个人AI助理,集成多种通用AI能力支持本地使用

    Olly bot是集成于iMessage和SMS的个人AI助手,基于OpenAI大模型,提供网络搜索、文档分析、图片生成等功能。Olly bot无需下载、注册,不收集用户身份信息,保护隐私。支持iOS、macOS、Android和Windows平台。Olly bot的设计理念是成为多合一的AI伴侣,包括管理任务、导航、寻求个性化建议,改变用户与技术互动的方式。

    AI教程资讯 2023-04-14

最新录入 更多+
确定