Movie Gen – Meta推出文本驱动的AI视频生成与编辑工具-爱论文

Movie Gen是什么

Movie Gen 是 Meta 推出的AI视频生成工具，能根据文本提示生成和编辑视频，为视频配上同步音频。技术包括创建长达16秒的高清视频、为现有视频配上音频、编辑视频以及基于照片制作定制视频。Movie Gen 的视频生成模型参数为30B，能生成每秒16帧的视频。音频生成模型参数为13B，能生成长达45秒的高质量音频，包括环境声音、音效和乐器背景音乐。工具仅限公司内部员工及少数合作伙伴使用，Meta计划未来整合到现有应用中，提高用户参与度。

Movie Gen的主要功能

视频生成：用户输入文本提示， Movie Gen 生成长达16秒的高清视频。视频根据文本描述自动创建，适应不同的长宽比和分辨率。个性化视频生成：用户上传照片，Movie Gen 能生成包含该人物特征的视频，同时保持人物身份和动作的一致性。精确视频编辑：Movie Gen 支持用户通过文本指令对视频进行精确编辑，包括添加、删除或替换视频中的元素，以及进行背景或风格的变化。音频生成：Movie Gen 能为视频生成同步的高质量音频，包括环境音效、拟音效果（Foley sounds）和乐器背景音乐。音频与视频内容相匹配，根据文本提示生成。

Movie Gen的技术原理

模型架构：Movie Gen 包括两个主要的基础模型，Movie Gen Video（视频生成）和 Movie Gen Audio（音频生成）。预训练：模型在大量的互联网图像、视频和音频数据上进行预训练，学习视觉和听觉世界的各种概念。流匹配（Flow Matching）：用流匹配训练目标训练生成模型，一种迭代更新样本的方法，用在生成数据。变分自编码器（VAE）：用变分自编码器将视频和图像压缩到一个学习到的潜在空间中，提高训练和推理效率。文本嵌入：用预训练的文本编码器将输入文本转换为文本嵌入，作为模型的条件输入。多模态输入：模型能处理包括文本、图像和视频在内的多种输入类型，生成相应的输出。

Movie Gen的项目地址

项目官网：ai.meta.com/blog/movie-gen技术论文：https://ai.meta.com/static-resource/movie-gen-research-paper

Movie Gen的应用场景

内容创作：为社交媒体、博客或视频分享平台创作独特的视频内容。电影和视频制作：在预生产阶段生成概念视频，或者在后期制作中进行快速编辑和音频混合。广告和营销：快速生成吸引人的广告视频，吸引潜在客户的注意力。教育和培训：创建教育内容，如模拟实验、历史重现或语言学习材料。游戏开发：为游戏内的视频内容、预告片或宣传材料生成视频和音频。新闻和报道：快速生成新闻故事的视觉内容，提高报道的吸引力。