CogSound – 智谱AI最新推出的音效模型-爱论文

CogSound是什么

CogSound是智谱AI最新推出的音效模型，能为无声视频增添动人的音效。基于GLM-4V的视频理解能力，CogSound能精准识别理解视频背后的语义和情感，为无声视频添加与之相匹配的音频内容，可以生成更复杂的音效，如爆炸、水流、乐器、动物叫声、交通工具声等。模型的推出标志着智谱AI在视频生成领域的技术进步，特别是在提升视频的多模态体验方面，增强视频的沉浸感和真实感。

CogSound的主要功能

生成与画面匹配的音效：CogSound能为视频生成与画面匹配的音效，提供更加丰富的视听体验。支持4K超高清视频生成：支持生成10秒、4K分辨率、60帧的超高清视频，同时匹配相应的音效。适应不同播放需求：支持任意比例的视频生成，以适应不同的播放需求，并为这些视频生成匹配的音效。多通道视频生成：同一指令/图片可以一次性生成4个视频，每个视频都有相应的音效。提升视频生成体验：通过添加音效，CogSound增强了视频内容的沉浸感和真实感，使视频生成的体验更加完整和生动。音效功能公测：CogSound的音效功能将很快上线公测（预计11月底），用户将在智谱清影中体验到由CogSound提供的音效生成服务。

CogSound的技术特点

基于Unet的潜空间扩散：高效音频生成：CogSound基于潜空间扩散模型（Latent Diffusion Model）将音频生成过程从高维原始空间转移到低维潜空间，有助于降低计算复杂度。优化的U-Net结构：作为扩散模型的核心框架，U-Net结构经过优化，能在保持生成音频的高质量和高效率的同时，提升音频合成过程的性能。分块时序对齐交叉注意力：加强音视频特征的关联性：通过引入分块时序对齐交叉注意力（Block-wise Temporal Alignment Cross-attention）机制，CogSound能优化视频长序列与音频特征之间的特征匹配。精确的音视频映射：通过学习帧级视频特征与音频特征之间的关系，实现精准的音视频映射，确保每一帧画面都能在音符中找到自己的位置，每一个音符也能在视频中精准呼应。旋转位置编码：提升时序建模精度：CogSound整合了旋转位置编码技术，为序列中的每个位置提供唯一标识并捕捉位置间的相对关系，有助于提升时序一致性。连贯性和过渡自然性：旋转位置编码确保音频序列的连贯性和过渡自然性，在处理长时序任务时，能避免音频生成中的“断层”或“错位”。