MoCha – Meta 联合滑铁卢大学推出的端到端对话角色视频生成模型-爱论文

MoCha是什么

MoCha AI 是 Meta 和滑铁卢大学联合开发的端到端对话角色视频生成模型。能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画。MoCha 采用语音-视频窗口注意力机制，解决了视频压缩时音频分辨率不匹配以及唇部动作错位的问题。支持多角色轮换对话，能生成具有情感表达和全身动作的角色动画。

MoCha的主要功能

语音驱动角色动画生成：用户输入语音，MoCha 可以生成与语音内容同步的角色嘴型、面部表情、手势及身体动作。文本驱动角色动画生成：用户仅输入文本脚本，MoCha 会先自动合成语音，再驱动角色进行完整的口型和动作表现。全身动画生成：与传统仅生成面部表情或嘴型的模型不同，MoCha 能生成全身的自然运动，涵盖嘴唇同步、手势以及多角色之间的互动。多角色轮番对话生成：MoCha 提供结构化提示模板与角色标签，能自动识别对话轮次，实现角色间“你来我往”的自然对话呈现。在多角色场景中，用户只需定义一次角色信息，可以通过简单的标签（如“人物1”“人物2”）在不同的场景中引用这些角色，无需重复描述。

MoCha的技术原理

扩散变压器（DiT）架构：MoCha 基于扩散变压器（Diffusion Transformer）架构，通过将文本和语音条件依次通过交叉注意力机制融入模型，有效捕捉语义和时间动态。能生成逼真且富有表现力的全身动作，同时确保角色动画与输入语音的精确同步。语音-视频窗口注意力机制：为了解决视频压缩和并行生成带来的语音-视频对齐问题，MoCha 引入了语音-视频窗口注意力机制。限制每个视频标记只能关注与其时间上相邻的音频标记，提高口型同步的准确性和语音-视频对齐效果。模拟了人类语音的运作方式，使角色的口型与对话内容精准匹配。联合训练策略：MoCha 采用了联合训练策略，同时基于语音标注和文本标注的视频数据进行训练。增强了模型在多样化角色动作上的泛化能力，通过自然语言提示实现对角色表情、动作、互动和环境的精细控制。结构化提示模板：为了简化多角色对话的文本描述，MoCha 设计了结构化提示模板，通过为每个角色分配唯一标签在文本中使用这些标签来描述角色的动作和互动。减少了冗余，提高了模型在多角色场景中的生成效果。多阶段训练框架：MoCha 采用了多阶段训练框架，根据镜头类型（如特写镜头、中景镜头）对数据进行分类，逐步引入更复杂的任务。确保了模型在不同难度任务上的表现，同时提高了训练效率。

MoCha的项目地址

项目官网：https://congwei1230.github.io/MoCha/arXiv技术论文：https://arxiv.org/pdf/2503.23307

MoCha的应用场景

虚拟主播：MoCha 可以自动生成日常 Vlog、角色问答等内容。通过语音或文本输入，生成与语音内容同步的角色嘴型、面部表情、手势及身体动作，使虚拟主播更加生动自然。动画影视创作：MoCha 支持 AI 自动配音和自动动画生成，能降低动画影视创作的制作成本。能生成全身动画，让角色动作更加自然，接近电影级数字人演出。教育内容创作：MoCha 可以作为 AI 老师角色进行讲课或互动。通过文本驱动的方式，生成与教学内容匹配的角色动画，提高教育内容的趣味性和吸引力。数字人客服：MoCha 可以用于拟人化企业客服、咨询角色。通过语音或文本输入，生成自然流畅的客服对话动画，提升用户体验。