OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架-爱论文

OmniCam是什么

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精确控制摄像机的运动轨迹。OmniCam 结合了大型语言模型（LLM）和视频扩散模型，能生成时空一致的视频内容。通过三阶段训练策略，包括大规模模型训练、视频扩散模型训练以及强化学习微调，确保生成视频的准确性和连贯性。

OmniCam的主要功能

多模态输入支持：用户可以提供文本或视频作为轨迹参考，以及图像或视频作为内容参考，实现对摄像机运动的精确控制。高质量视频生成：基于大型语言模型和视频扩散模型，生成时空一致的高质量视频。灵活的摄像机控制：支持帧级控制，可设置操作的起始和结束帧。支持任意方向的复合运动、相机拉近和推远，移动和旋转到任意角度。支持速度控制，为快速剪辑提供基础。支持多种操作的无缝连接，支持长序列操作，允许连续执行多个指令。支持常见的特效如相机旋转。数据集支持：引入了 OmniTr 数据集，是首个针对多模态相机控制的大型数据集，为模型训练提供了坚实的基础。

OmniCam的技术原理

轨迹规划：用户输入文本或视频后，OmniCam 首先将这些输入转化为离散运动表示，将复杂的指令拆解成一个个简单的动作。通过精准的轨迹规划算法，计算出每一帧画面中相机的具体位置和姿态，为后续的生成做好准备。具体来说，算法将相机运动围绕物体中心建模为球面运动，计算出轨迹上每一点的空间位置，转换为相机外参序列。内容渲染：结合用户提供的内容参考（图像或视频）以及规划好的相机轨迹，OmniCam 运用先进的 3D 重建技术，渲染出初始视角的视频帧，在渲染过程中，会使用点云、相机内参和外参等信息，通过特定算法优化相机内参，完成视频帧的渲染。细节完善：在渲染过程中，OmniCam 的扩散模型会基于自身的先验知识，对视频帧进行细节补充，填补那些空白区域，最终生成出完整、精美的视频。大规模模型训练：以 Llama3.1 为骨干网络进行微调，训练大规模模型。视频扩散模型训练：对视频扩散模型进行训练。强化学习微调：冻结下游视频生成模型，将其作为奖励模型，利用 PPO 算法对轨迹大模型进行微调，以优化模型性能。

OmniCam的项目地址

arXiv技术论文：https://arxiv.org/pdf/2504.02312

OmniCam的应用场景

影视制作：OmniCam 可以快速生成复杂的镜头运动，帮助导演和制片人节省大量设计和拍摄镜头的时间与精力，提高制作效率，实现更多创意想法。广告宣传：广告商可以用 OmniCam 根据不同宣传需求快速调整镜头角度和运动轨迹，制作出更具吸引力的广告视频，吸引消费者的目光。教育与培训：OmniCam 能生成生动形象的教学视频，将复杂的概念变得简单易懂。学生通过观看这些视频，可以更好地理解和掌握知识，提高学习效果。智能安防：OmniCam 可以用于城市治安监控、交通管理、应急指挥等场景，实现多部门视频资源整合与联动。