ACTalker是什么
ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

来源:爱论文 时间:2025-04-15 10:38:03
ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。
ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。
AI教程资讯
2023-04-14
SkyReels-A2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像的一致性。
AI教程资讯
2023-04-14
ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对3-5岁儿童的普通话语音数据集。数据集包含41 25小时的语音数据,来自397名儿童,覆盖中国22个省级行政区,性别分布均衡。
AI教程资讯
2023-04-14
MagicColor 是香港科技大学推出的多实例线稿图着色框架,支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模块,解决多实例数据不足的问题,实现精准的实例级色彩控制。
AI教程资讯
2023-04-14