CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架-爱论文

CustomVideoX是什么

CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架，通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩散变换器（Video Diffusion Transformer），通过零样本学习的方式，仅训练 LoRA 参数来提取参考图像特征，实现高效的个性化视频生成。CustomVideoX 的核心技术包括：3D 参考注意力机制，支持参考图像特征与视频帧在空间和时间维度上直接交互；时间感知注意力偏差（TAB）策略，通过动态调整参考特征的影响，增强生成视频的时间连贯性；以及实体区域感知增强（ERAE）模块，通过语义对齐突出关键实体区域。解决了传统方法中时间不一致性和质量下降的问题。

CustomVideoX的主要功能

个性化视频生成：CustomVideoX 能根据用户提供的参考图像和文本描述生成与之高度一致的视频内容。生成符合描述的视频，保留参考图像中的细节特征。高保真度的参考图像融合：通过 3D 参考注意力机制，CustomVideoX 参考图像的特征与视频帧在空间和时间维度上进行无缝交互。确保生成的视频与文本描述一致，能在每一帧中保持参考图像的主体特征和细节。时间连贯性优化：CustomVideoX 引入了时间感知注意力偏差（TAB）策略，通过动态调整参考特征在不同时间步的影响，优化生成视频的时间连贯性。避免了传统方法中常见的跳跃或不连贯问题。关键区域增强：通过实体区域感知增强（ERAE）模块，CustomVideoX 能识别并增强视频中与文本描述相关的关键区域。

CustomVideoX的技术原理

3D 参考注意力机制：通过 3D 因果变分自编码器（3D Causal VAE）对参考图像进行编码，将特征与视频帧在空间和时间维度上进行直接交互，确保生成视频在每一帧中都能保持参考图像的主体特征和细节。时间感知注意力偏差（TAB）：在扩散模型的去噪过程中，通过抛物线时间掩码动态调整参考特征的权重。在去噪的早期减弱参考特征的影响，中间阶段增强影响，最后阶段再次减弱，优化生成视频的时间连贯性和视觉质量。实体区域感知增强（ERAE）：通过计算文本描述中关键实体的激活强度，识别视频中与这些实体相关的区域，对其进行语义对齐的增强。突出了目标实体，保持背景的多样性，提升生成视频的语义一致性和自然性。零样本学习与 LoRA 参数训练：仅通过训练少量的 LoRA 参数来提取参考图像特征，避免了传统微调方法可能带来的性能下降，同时保留了预训练模型的完整性，降低了训练复杂度。高质量数据集与基准测试：研究者构建了高质量的定制化视频数据集，提出了 VideoBench 基准测试平台，用于训练和评估模型的泛化能力及性能。