SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架-爱论文

SVFR是什么

SVFR（Stable Video Face Restoration）是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架，整合了视频人脸修复（BFR）、着色和修复任务，基于Stable Video Diffusion（SVD）的生成和运动先验，通过统一的人脸修复框架整合特定于任务的信息。SVFR引入了可学习的任务嵌入以增强任务识别，同时采用了一种新颖的统一潜在正则化（ULR）来鼓励不同子任务之间的共享特征表示学习。为了进一步提高恢复质量和时间稳定性，还引入了面部先验学习和自参考细化作为用于训练和推理的辅助策略。

SVFR的主要功能

视频人脸修复（BFR）：提升视频中人脸的细节和清晰度，使模糊或损坏的人脸画面变得更加清晰和自然。人脸着色：为黑白或色彩失真的视频人脸添加生动的色彩，增强视觉效果。人脸修复（Inpainting）：修复视频中人脸的缺失部分，如遮挡或损坏的区域，恢复完整的人脸细节。

SVFR的技术原理

任务整合：SVFR整合了视频人脸修复（BFR）、着色和修复任务，通过一个统一的框架来处理这些任务，实现协同增益。这种整合方法可以利用不同任务之间的互补信息，提升整体的修复效果。生成和运动先验：SVFR基于Stable Video Diffusion（SVD）的生成和运动先验，增强修复效果。SVD提供了强大的生成能力和运动信息，帮助模型更好地理解和处理视频中的人脸运动，确保时间连贯性。任务嵌入：引入可学习的任务嵌入，增强模型对特定任务的识别能力。使模型能更好地理解输入数据所属的任务类型，更准确地进行修复。统一潜在正则化（ULR）：采用ULR方法，鼓励不同子任务之间的特征共享。通过将不同任务的中间特征整合到一个共享的潜在空间中，ULR有助于模型学习更通用的特征表示，提升修复质量。面部先验学习：为了进一步提高修复质量，SVFR引入了面部先验学习。通过使用面部地标等结构先验，模型可以更自然地嵌入面部结构信息，避免面部结构异常和纹理失真。自引用细化：在推理阶段，SVFR采用自引用细化策略，通过参考之前生成的帧来优化当前帧的修复结果，增强时间稳定性。这种策略确保了视频中人脸的平滑过渡和一致性。