Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型-爱论文

Lipsync-2是什么

Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练，能即时学习并生成符合独特说话风格的嘴型同步效果。模型在真实感、表现力、控制力、质量和速度方面均实现了显著提升，适用于真人视频、动画以及 AI 生成的内容。

Lipsync-2的主要功能

零-shot 嘴型同步：Lipsync-2 不需要针对特定演讲者进行大量的预训练，能即时学习并生成与演讲者说话风格相匹配的嘴型同步效果。多语言支持：支持多种语言的嘴型同步，能将不同语言的音频与视频中的嘴型进行精准匹配。个性化嘴型生成：模型能学习并保留演讲者的独特说话风格，在真人视频、动画或是 AI 生成的视频内容中，能保持演讲者的风格。温度参数控制：用户可以通过“温度”参数调节嘴型同步的表现程度，从简洁自然到更具夸张表现力的效果都可以实现，满足不同场景的需求。高质量输出：在真实感、表现力、控制力、质量和速度方面均实现了显著提升，适用于真人视频、动画以及 AI 生成的内容。

Lipsync-2的技术原理

零-shot 学习能力：Lipsync-2 无需针对特定演讲者进行预训练，可即时学习并生成符合其独特说话风格的嘴型同步效果。颠覆了传统嘴型同步技术对大量训练数据的需求，使模型能快速适应不同演讲者的风格，提高了应用效率。跨模态对齐技术：模型通过创新的跨模态对齐技术，实现了 98.7% 的唇形匹配精度。能精准地将音频信号与视频中的嘴型动作进行对齐，提供高度真实感和表现力的嘴型同步。温度参数控制：Lipsync-2 引入了“温度”参数，支持用户调节嘴型同步的表现程度。当温度参数较低时，生成的嘴型同步效果更加简洁自然，适合追求真实风格的视频；当温度参数较高时，效果更具夸张表现力，适合需要突出情感的场景。高效的数据处理与生成：Lipsync-2 在生成质量和速度方面实现了显著提升。能实时分析音频和视频数据，快速生成与语音内容同步的嘴型动作。

Lipsync-2的应用场景

视频翻译与字级编辑：可用于视频翻译，将不同语言的音频与视频中的嘴型进行精准匹配，同时支持对视频中的对话进行字级编辑。角色重新动画化：能对已有的动画角色进行重新动画化，使嘴型与新的音频内容相匹配，为动画制作和内容创作提供了更大的灵活性。多语言教育：有助于实现“让每场讲座都能以每种语言呈现”的愿景，为教育领域带来革命性变化。AI 用户生成内容（UGC）：支持生成逼真的 AI 用户生成内容，为内容创作和消费带来新的可能性。