CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术-爱论文

CausVid是什么

CausVid是Adobe和MIT共同推出的自回归实时视频生成技术，能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型，减少视频生成的延迟，首帧延迟仅1.3秒，生成速度达到9.4帧/秒。CausVid突破传统视频生成模型的限制，支持多种应用，如文本到视频、图像到视频的生成，及视频风格转换等，为实时视频创作和编辑带来新的可能性。

CausVid的主要功能

即时视频生成：用户在点击生成后能立即观看视频，无需等待整个视频序列生成完毕。快速流式生成：在单GPU上以9.4 FPS的速度快速流式生成高质量视频。零样本图像到视频生成：无需额外训练，模型能将静态图像自然转化为流畅视频。视频风格转换：实时将一种视频风格转换为另一种风格，如将游戏画面转换为真实场景。交互式剧情生成：用户调整提示词，实时引导视频剧情发展，创造新的创作体验。长视频生成：训练时接触10秒的视频，能生成长达30秒甚至更长的视频。

CausVid的技术原理

自回归生成模型：基于自回归生成模型，按顺序生成视频的每一帧。分布匹配蒸馏（DMD）：基于DMD技术，将一个多步的扩散模型蒸馏成只需4步的生成器，大幅减少生成步骤，提高效率。非对称蒸馏策略：用双向教师模型监督自回归的单向学生模型，减少误差累积，提高视频生成质量。学生初始化：在蒸馏训练之前，基于预训练学生模型稳定后续的训练过程。KV缓存推理技术：用键值（KV）缓存机制，提高生成效率，支持模型快速访问之前生成的帧信息。滑动窗口机制：用滑动窗口机制，处理无限长度的视频生成，打破传统模型的长度限制。误差累积控制：基于教师-学生结构和特定的训练策略，减少自回归模型中常见的误差累积问题，生成更稳定和高质量的视频内容。

CausVid的项目地址

项目官网：causvid.github.io技术论文：https://causvid.github.io/causvid_paper.pdf

CausVid的应用场景

内容创作与娱乐：快速生成视频内容，为视频博主、电影制作人和游戏开发者提供快速制作和迭代视频内容的方法。新闻与报道：在新闻报道中，迅速制作出视频摘要，帮助观众快速了解事件动态。教育与培训：用CausVid生成的教育视频模拟复杂的过程和历史事件，为学习者提供直观的学习材料。游戏开发：游戏开发者创建游戏内的动态背景，或快速原型设计游戏故事情节。广告与营销：根据市场需求快速调整广告内容，帮助营销人员制作更具针对性的广告视频。