当前位置: 网站首页 >AI教程资讯 >正文

Fancy123 – 华中科技和华南理工推出的3D网格生成技术

来源:爱论文 时间:2025-01-31 22:25:58

Fancy123是什么

Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,分别解决多视图图像的局部不一致性、提高网格对输入图像的保真度及确保高清晰度。外观增强模块基于变形2D多视图图像对齐像素,保真度增强模块基于变形3D网格匹配输入图像。Fancy123在定性和定量实验中显示出显著的性能提升,能无缝集成到现有的单图像到3D的方法中。

Fancy123

Fancy123的主要功能

从单张图片生成3D网格:根据单一的RGB图像生成具有高视觉吸引力、颜色清晰度和输入保真度的3D网格模型。解决多视图图像的局部不一致性:基于外观增强模块,校正由2D多视图扩散模型生成的图像中的不一致性,提高多视图一致性。提高网格对输入图像的保真度:基于保真度增强模块,调整3D网格更精确地匹配输入图像,增强网格与输入图像的相似度。确保高清晰度:基于反投影操作,将输入图像和变形后的多视图图像投影到由LRM生成的网格上,提高网格颜色的清晰度,去除模糊效果。

Fancy123的技术原理

多视图扩散模型:用2D多视图扩散模型基于输入图像生成一组多视图图像。大型重建模型(LRM):用LRM从多视图图像中快速重建一个初始的3D网格。外观增强模块:优化基于网格的2D变形场对齐多视图图像中的错位像素。将变形后的多视图图像反投影到初始网格上,增强外观质量并减少幽灵效应。保真度增强模块:基于参数化网格变形(用Jacobian场)优化网格,使其更贴近输入图像。估计输入图像的相机参数,以便在变形过程中保持与输入图像的对应关系。反投影操作:在2D和3D变形之后,Fancy123执行反投影操作,将输入图像和变形后的多视图图像几乎无损地映射到网格上,提高网格颜色的清晰度。即插即用模块:Fancy123的两个增强模块设计为即插即用,能在推理时工作,支持无缝集成到各种现有的单图像到3D的方法中。

Fancy123的项目地址

Github仓库:https://github.com/YuQiao0303/Fancy123arXiv技术论文:https://arxiv.org/pdf/2411.16185

Fancy123的应用场景

虚拟现实(VR)和增强现实(AR):在VR和AR应用中,用在从现有的2D图像创建3D模型,提供更加沉浸式的体验。游戏开发:游戏设计师快速生成3D游戏资产,减少手工建模的时间和成本。电影和动画制作:艺术家创建复杂的3D角色和场景,用在电影和动画的制作。3D打印:将2D设计图或照片转换成3D模型,用在3D打印各种物品,如玩具、艺术品等。电子商务:电商平台为商品提供3D展示,帮助消费者更直观地了解产品。
上一篇:Mooncake – 月之暗面Kimi联合清华等机构推出的大模型推理架构
相关资讯 更多+
  • Fancy123 – 华中科技和华南理工推出的3D网格生成技术
    Fancy123 – 华中科技和华南理工推出的3D网格生成技术

    Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,分别解决多视图图像的局部不一致性、提高网格对输入图像的保真度及确保高清晰度。

    AI教程资讯 2023-04-14

  • Mooncake – 月之暗面Kimi联合清华等机构推出的大模型推理架构
    Mooncake – 月之暗面Kimi联合清华等机构推出的大模型推理架构

    Mooncake是月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构,通过分离预填充和解码集群,充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现高效的KVCache缓存。Mooncake的核心优势在于能显著提升大模型推理的吞吐量,降低算力开销,在保持服务延迟相关的服务级别目标(SLO)的同时,处理高负载场景。

    AI教程资讯 2023-04-14

  • QwQ-32B-Preview – 阿里开源的AI推理模型,基准测试超越 o1 模型
    QwQ-32B-Preview – 阿里开源的AI推理模型,基准测试超越 o1 模型

    QwQ-32B-Preview(QwQ-32B)是阿里推出的开源AI推理模型,在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数,能处理长达32000个tokens的提示词。在多个基准测试中,包括GPQA、AIME、MATH-500和LiveCodeBench,QwQ-32B-Preview超越OpenAI的o1模型。

    AI教程资讯 2023-04-14

  • InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集
    InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

    InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。

    AI教程资讯 2023-04-14

最新录入 更多+
确定