GenMAC – 港大、清华联合微软推出文本到视频生成的多代理协作框架-爱论文

GenMAC是什么

GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架，用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计三个阶段，在生成与重新设计之间建立迭代循环，逐步验证和优化视频内容。框架中的重新设计阶段进一步细分为验证、建议、修正和输出结构化四个子任务，由专门的代理顺序执行，用自适应自路由机制选择适合当前场景的代理，实现更准确的视频生成。

GenMAC的主要功能

组合文本到视频生成：根据复杂的组合文本提示生成视频，处理包括多对象、属性绑定、时间动态和对象间交互的场景。迭代工作流程：用迭代方法，包括设计(Design)、生成(Generation)和重新设计(Redesign)三个阶段，及它们之间的迭代循环，逐步完善视频内容。多代理协作：框架用多个专业化的MLLM（多模态大型语言模型）代理，每个代理负责处理特定的子任务，实现集体智能。任务分解：重新设计阶段被分解为验证、建议、修正和输出结构化四个子任务，由不同的代理顺序执行。自适应自路由机制：GenMAC设计自适应自路由机制，适应不同的生成场景，从专门的代理集合中选择最合适的代理进行修正。提高场景准确性和文本对齐：用多代理协作和迭代细化，提高视频场景的准确性和与文本提示的对齐度。

GenMAC的技术原理

任务分解与角色专业化：将复杂的视频生成任务分解为更简单的子任务，为每个子任务分配专门的代理，每个代理都有特定的角色和职责。迭代循环：在生成和重新设计阶段之间设置迭代循环，模型逐步验证和修正生成的视频，更好地符合文本提示。代理协作：验证代理：检查视频内容与文本提示的对齐情况。建议代理：基于验证结果提出修正建议，选择适合的修正代理。修正代理：根据建议调整视频设计，如布局和指导比例。输出结构化代理：将修正结果转化为结构化格式，为下一次迭代生成提供输入。自适应自路由：根据不同的生成需求和场景，自适应地选择最适合的修正代理，处理一致性、时间动态和空间动态等问题。跨阶段信息流：在设计、生成和重新设计阶段之间，信息（如布局、指导比例和文本提示）不断更新和传递，实现更准确的视频生成。

GenMAC的项目地址

项目官网：karine-h.github.io/GenMACGitHub仓库：https://github.com/Karine-Huang/GenMACarXiv技术论文：https://arxiv.org/pdf/2412.04440

GenMAC的应用场景

电影和视频制作：根据剧本或故事板的文本描述生成视频片段，帮助导演和制片人预览场景。游戏开发：在游戏设计中，生成游戏环境和动态场景的概念视频，辅助游戏设计师进行创作。广告和营销：根据广告文案生成视频广告，快速将创意文案转化为视觉内容，提高广告制作的效率。教育和培训：创建教育视频，将复杂的理论或历史事件以视频形式呈现，增强学习体验。新闻和媒体：根据新闻稿或报道自动生成新闻视频，提高新闻制作的效率和响应速度。