当前位置: 网站首页 >AI教程资讯 >正文

SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

来源:爱论文 时间:2025-01-26 12:25:15

SynCamMaster是什么

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。基于插件式模块和多视图同步模块,实现视点间的动态同步,保持4D一致性。SynCamMaster能扩展到新视角视频合成,重新渲染输入视频从新视角观看。

SynCamMaster

SynCamMaster的主要功能

多视角视频生成:SynCamMaster能从同一动态场景的不同视角生成多个视频。视点间动态同步:在多个视角间保持动态的同步,确保不同摄像机生成的视频内容在时间和空间上的一致性。开放世界视频生成:SynCamMaster支持从任意视角生成开放世界的视频。6自由度相机姿势:结合6自由度(6 DoF)相机姿势,用户能从任意视角捕捉场景。预训练模型增强:用即插即用的模块增强预训练的文本到视频模型,用在多相机视频生成。新视角视频合成:SynCamMaster能扩展到新视角视频合成,引入参考视频到多相机视频生成模型中,实现从新视角重新渲染输入视频。

SynCamMaster的技术原理

预训练的文本到视频模型:基于预训练的文本到视频的扩散模型,根据文本描述生成一致的3D视频内容。多视图同步模块:引入多视图同步模块,模块被集成到每个Transformer块中,用在维护不同视角间的外观和几何一致性。相机编码器:用相机编码器将相机的外部参数(如旋转矩阵和平移向量)编码到与空间特征相同维度的嵌入空间中。交叉视角自注意力:在多视图同步模块中,用交叉视角自注意力层聚合来自不同视角的特征,实现视图间的信息交流和同步。混合训练数据集:设计种混合训练方案,结合多相机图像、单目视频和虚幻引擎渲染的多相机视频。渐进式训练策略:推出渐进式训练策略,逐渐增加训练中不同视角之间的相对角度差异,提高模型在处理大视角差异时的性能。

SynCamMaste的项目地址

项目官网:jianhongbai.github.io/SynCamMasterGitHub仓库:https://github.com/KwaiVGI/SynCamMasterarXiv技术论文:https://arxiv.org/pdf/2412.07760

SynCamMaster的应用场景

虚拟拍摄:在电影和视频制作中,从多个角度生成视频,帮助导演和制作团队预览场景,实现复杂的镜头组合。游戏开发:游戏开发者创建动态的游戏预告片或演示视频,展示游戏环境和角色从不同视角的互动。虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与用户视角变化一致的动态内容,提升沉浸式体验。模拟训练:对于需要多角度观察的场景,如驾驶模拟、手术模拟等,提供从不同视角的实时视频,增强训练效果。监控系统:在安全监控领域,整合多个摄像头的视频流,生成统一视角的视频,便于监控人员更好地理解事件发展。
上一篇:STIV – 苹果公司推出的视频生成大模型
相关资讯 更多+
  • SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型
    SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

    SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强了预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成。

    AI教程资讯 2023-04-14

  • STIV – 苹果公司推出的视频生成大模型
    STIV – 苹果公司推出的视频生成大模型

    STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8 7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。

    AI教程资讯 2023-04-14

  • DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板
    DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板

    DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实现对漫画中多角色外观和互动的精确控制。

    AI教程资讯 2023-04-14

  • Maya – 开源多语言多模态模型,能处理和理解八种不同语言
    Maya – 开源多语言多模态模型,能处理和理解八种不同语言

    Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基于毒性分析和数据集过滤,确保训练数据的安全性和质量。

    AI教程资讯 2023-04-14

最新录入 更多+
确定