ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架-爱论文

ACTalker是什么

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制，如音频、表情等。核心架构包括并行 Mamba 结构，通过多个分支利用不同驱动信号分别控制面部区域，基于门控机制和掩码丢弃策略，实现灵活且自然的视频生成。在 CelebV-HQ 数据集上，ACTalker 的 Sync-C 和 Sync-D 分数表现优异，分别为 5.317 和 7.869，FVD-Inc 分数为 232.374，展现了良好的音频同步和视频质量。

ACTalker的主要功能

多信号控制与单信号控制：ACTalker 支持多信号控制和单信号控制，能用音频、表情等多种信号来驱动说话人头部视频的生成。自然协调的视频生成：通过 Mamba 结构，使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记，确保受控视频在时间和空间上的自然协调。高质量的视频生成：实验结果表明，ACTalker 能生成自然、逼真的面部视频，在多信号控制下，Mamba 层能无缝整合多种驱动模态，无冲突地生成视频。

ACTalker的技术原理

并行 Mamba 结构：ACTalker 采用并行 Mamba 结构，包含多个分支，每个分支利用单独的驱动信号（如音频、表情等）来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程，互不干扰，实现多信号控制。门控机制：在所有分支中应用了门控机制，在训练时随机开启或关闭，在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式，支持在不同情况下选择使用单一信号或多种信号进行驱动。掩码丢弃策略（Mask-Drop）：ACTalker 引入了掩码丢弃策略，支持每个驱动信号独立控制其对应的面部区域。在训练过程中，策略通过随机丢弃与控制区域无关的特征标记，增强驱动信号的有效性，提高生成内容的质量，防止控制冲突。状态空间建模（SSM）：为了确保受控视频在时间和空间上的自然协调，ACTalker 采用了状态空间建模（SSM）。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记，实现自然的面部动作协调。视频扩散模型基础：ACTalker 基于视频扩散模型进行构建，在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号，通过门控机制动态调整各模态影响权重。

ACTalker的项目地址

项目官网：https://harlanhong.github.io/publications/actalkerGithub仓库：https://github.com/harlanhong/ACTalkerHuggingFace模型库：https://huggingface.co/papers/2504.02542arXiv技术论文：https://arxiv.org/pdf/2504.02542

ACTalker的应用场景

虚拟主播：ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频，使虚拟主播更加生动逼真，更好地与观众互动，提升观众的观看体验。远程会议：在远程会议中，ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题，能让参会者在视频信号不佳时，通过音频和表情信号生成自然的面部视频，增强远程交流的真实感。在线教育：在线教育场景中，教师可以用 ACTalker 生成自然的说话头视频，通过音频和表情信号的控制，使教学视频更加生动有趣，吸引学生的注意力，提高教学效果。虚拟现实与增强现实：在虚拟现实（VR）和增强现实（AR）应用中，ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。娱乐与游戏：在娱乐和游戏领域，ACTalker 可以为角色生成自然的说话头视频，增强角色的表现力和代入感。