AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架-爱论文

AnyCharV是什么

AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架，能将任意参考角色图像与目标驱动视频相结合，生成高质量的角色视频。AnyCharV基于两阶段训练策略实现精细到粗略的引导：第一阶段用细粒度分割掩码和姿态信息进行自监督合成；第二阶段用自增强训练和粗粒度掩码优化角色细节保留。AnyCharV 在实验中展现出优越的性能，能自然地保留角色的外观细节，支持复杂的人-物交互和背景融合。AnyCharV能与文本到图像（T2I）和文本到视频（T2V）模型生成的内容结合，具有很强的泛化能力。

AnyCharV的主要功能

任意角色与目标场景的合成：将任意给定的角色图像与目标驱动视频结合，生成自然、高质量的视频。高保真角色细节保留：基于自增强训练和粗粒度掩码引导，保留角色的外观和细节，避免失真。复杂场景与人-物交互：支持角色在复杂背景下的自然交互，如运动、物体操作等。灵活的输入支持：结合文本到图像（T2I）和文本到视频（T2V）模型生成的内容，具有很强的泛化能力。

AnyCharV的技术原理

第一阶段：自监督合成与细粒度引导：用目标角色的分割掩码和姿态信息作为条件信号，将参考角色精确地合成到目标场景中。引入参考图像的 CLIP 特征和 ReferenceNet 提取的角色外观特征，保留角色的身份和外观。对分割掩码进行强增强，减少因形状差异导致的细节丢失。第二阶段：自增强训练与粗粒度引导基于生成的视频对进行自增强训练，用粗略的边界框掩码代替细分割掩码，减少对角色形状的约束。基于这种方式，模型能更好地保留参考角色的细节，在推理阶段生成更自然的视频。