当前位置: 网站首页 >AI教程资讯 >正文

HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架

来源:爱论文 时间:2025-03-31 14:30:14

HoloDrive是什么

HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D-3D多模态联合生成的空白。HoloDrive 在异构生成模型之间采用BEV-to-Camera和Camera-to-BEV转换模块,在2D生成模型中引入深度预测分支,消除从图像空间到BEV空间的投影歧义。

HoloDrive的主要功能

联合生成相机图像和激光雷达点云:HoloDrive 能同时生成多视图摄像头图像和激光雷达点云,填补了自动驾驶中2D-3D多模态联合生成的空白。跨模态结构:通过BEV-to-Camera和Camera-to-BEV转换模块,以及2D生成模型中的深度预测分支,HoloDrive 实现了2D和3D空间的有效对齐和信息交换,使整个模型能够端到端地训练。时间结构与渐进训练:HoloDrive 通过加入时间结构和精心设计的渐进训练,扩展了该方法以预测未来,适用于单帧生成和视频生成任务。高性能生成:在NuScenes数据集上的实验结果表明,HoloDrive 在生成多视图摄像头图像和激光雷达点云的单帧和序列数据方面达到了最优性能,显著优于现有最先进的方法(SOTA)。

HoloDrive的技术原理

BEV-to-Camera 和 Camera-to-BEV 转换模块:在异构生成模型之间采用 BEV-to-Camera 和 Camera-to-BEV 转换模块,以对齐3D和2D空间。深度预测分支:在2D生成模型中引入深度预测分支,自然监督来源于3D激光雷达,消除从图像空间到BEV空间的投影歧义。时间结构:通过加入时间结构,HoloDrive 能够扩展该方法以预测未来,适用于单帧生成和视频生成任务。渐进训练:基于渐进式训练策略,结合视频领域的额外多任务学习,实现训练阶段的平滑过渡。

HoloDrive的项目地址

arXiv技术论文:https://arxiv.org/pdf/2412.01407

HoloDrive的应用场景

生成逼真的街道场景:HoloDrive 能联合生成多视图摄像头图像和激光雷达点云,生成逼真的街道场景,减少对现实世界昂贵手动建模的需求。2D-3D 联合生成:HoloDrive 通过 BEV-to-Camera 和 Camera-to-BEV 转换模块,以及2D生成模型中的深度预测分支,实现了2D和3D空间的有效对齐和信息交换。时间结构和渐进训练:HoloDrive 通过加入时间结构和精心设计的渐进训练,扩展了该方法以预测未来。
上一篇:Perception-as-Control – 阿里通义实验室推出的图像动画框架
相关资讯 更多+
  • HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架
    HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架

    HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D-3D多模态联合生成的空白。

    AI教程资讯 2023-04-14

  • Perception-as-Control – 阿里通义实验室推出的图像动画框架
    Perception-as-Control – 阿里通义实验室推出的图像动画框架

    Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化,用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于U-Net架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画。

    AI教程资讯 2023-04-14

  • Motion Dreamer – 香港科技大学推出的运动合理视频生成框架
    Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

    Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利用该表示生成高细节视频。其引入实例流这一新运动模态,可实现从稀疏到密集的运动控制,用户通过提供稀疏运动提示,模型能生成时间连贯视频。

    AI教程资讯 2023-04-14

  • Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
    Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型

    Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均已公开,用户可以从零开始复现该模型。

    AI教程资讯 2023-04-14

最新录入 更多+
确定