HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架-爱论文

HoloDrive是什么

HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云，填补自动驾驶中2D-3D多模态联合生成的空白。HoloDrive 在异构生成模型之间采用BEV-to-Camera和Camera-to-BEV转换模块，在2D生成模型中引入深度预测分支，消除从图像空间到BEV空间的投影歧义。

HoloDrive的主要功能

联合生成相机图像和激光雷达点云：HoloDrive 能同时生成多视图摄像头图像和激光雷达点云，填补了自动驾驶中2D-3D多模态联合生成的空白。跨模态结构：通过BEV-to-Camera和Camera-to-BEV转换模块，以及2D生成模型中的深度预测分支，HoloDrive 实现了2D和3D空间的有效对齐和信息交换，使整个模型能够端到端地训练。时间结构与渐进训练：HoloDrive 通过加入时间结构和精心设计的渐进训练，扩展了该方法以预测未来，适用于单帧生成和视频生成任务。高性能生成：在NuScenes数据集上的实验结果表明，HoloDrive 在生成多视图摄像头图像和激光雷达点云的单帧和序列数据方面达到了最优性能，显著优于现有最先进的方法（SOTA）。

HoloDrive的技术原理

BEV-to-Camera 和 Camera-to-BEV 转换模块：在异构生成模型之间采用 BEV-to-Camera 和 Camera-to-BEV 转换模块，以对齐3D和2D空间。深度预测分支：在2D生成模型中引入深度预测分支，自然监督来源于3D激光雷达，消除从图像空间到BEV空间的投影歧义。时间结构：通过加入时间结构，HoloDrive 能够扩展该方法以预测未来，适用于单帧生成和视频生成任务。渐进训练：基于渐进式训练策略，结合视频领域的额外多任务学习，实现训练阶段的平滑过渡。

HoloDrive的项目地址

arXiv技术论文：https://arxiv.org/pdf/2412.01407

HoloDrive的应用场景

生成逼真的街道场景：HoloDrive 能联合生成多视图摄像头图像和激光雷达点云，生成逼真的街道场景，减少对现实世界昂贵手动建模的需求。2D-3D 联合生成：HoloDrive 通过 BEV-to-Camera 和 Camera-to-BEV 转换模块，以及2D生成模型中的深度预测分支，实现了2D和3D空间的有效对齐和信息交换。时间结构和渐进训练：HoloDrive 通过加入时间结构和精心设计的渐进训练，扩展了该方法以预测未来。