提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言 一、Stable Video 3D(sv3d) 二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五、LGM 六、Unique3D前言
二维的图像生成已经愈来愈趋近成熟,三维空间内的内容生成近年来得到广泛的关注,3D生成任务也面临着更大的挑战。
本文围绕comfyui,整理记录了近两年来最新的图生3D模型,如有错误缺失,还请大家斧正。
一、Stable Video 3D(sv3d)
SV3D具有两个版本:SV3D_u和SV3D_p。SV3D_u基于单张图像生成轨道视频,而SV3D_p则扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。
优点:灵活高效、可拓展性强(影视制作、游戏开发、工业设计)。
需注意:输入图片的质量对结果影响很大,需要选择高质量的图片输入;生成速度较慢,需要一定的计算资源。
二、TripoSR
论文:https://www.semanticscholar.org/paper/TripoSR%3A-Fast-3D-Object-Reconstruction-from-a-Image-Tochilkin-Pankratz/4299b79ef41601cf6e3e0603f7216d72b6d1315f
源代码:VAST-AI-Research/TripoSR (github.com)
TripoSR的设计基于LRM,利用 Transformer 架构,专为单图像 3D 重建而设计。 它采用单个 RGB 图像作为输入,并输出图像中对象的 3D 表示。
TripoSR 的核心包括以下组件:图像编码器、图像到三平面解码器和基于三平面的神经辐射场 (NeRF)。
优劣:制作效率高、响应速度快,生成质量一般。
三、LRM系列
1.LRM
论文:2311.04400 (arxiv.org)
LRM方法采用基于transformer的编码器-解码器架构,以数据驱动的方式从单个图像中获取3D对象表示。
LRM使用预训练的视觉转换器DINO作为图像编码器来生成图像特征。随后,该算法学习图像到三平面转换器解码器,通过交叉注意力将二维图像特征投射到三维三平面上,通过自注意力有效地模拟空间结构三平面补丁之间的关系。
2.GS-LRM
论文:https://www.semanticscholar.org/paper/GS-LRM%3A-Large-Reconstruction-Model-for-3D-Gaussian-Zhang-Bi/8ed0477f640fa3a2d5411155e445d13752821629
GS-LRM模型采用了一个简单的基于transformer的架构,包括将输入姿态图像分块,通过一系列的transformer块传递拼接的多视图图像标记,并从这些标记中直接解码最终的逐像素高斯参数进行可微分渲染。与只能重建对象的先前的LRM不同,通过预测逐像素高斯,GS-LRM可以自然地处理尺度大、复杂度高的场景,响应速度更快、质量更高。
3.OpenLRM
源代码:3DTopia/OpenLRM: An open-source impl. of Large Reconstruction Models (github.com)
OpenLRM基于LRM,利用高效的记忆优化注意力机制(基于xFormers),结合DINOv2编码器的强大功能,实现了在大规模数据集(如Objaverse和MVImgNet)上的训练,能够处理高维度特征映射。
四、CRM
论文:https://www.semanticscholar.org/reader/2177967931f395f88faa630019e3cd9b1831ffc1
源代码:thu-ml/CRM: [ECCV 2024] Single Image to 3D Textured Mesh in 10 seconds with Convolutional Reconstruction Model. (github.com)
Comfyui安装:flowtyone/ComfyUI-Flowty-CRM:这是一个自定义节点,可让您直接从 ComfyUI 使用卷积重建模型。 (github.com)
CRM强调了将几何先验知识整合到网络设计中的必要性,其建立在关键观察的基础上,首先,它从单个输入图像生成六张正射视图图像,然后将这些图像馈送到卷积U-Net中,利用其强大的像素级对齐能力和可观的带宽来创建高分辨率的3d视图。
五、LGM
论文:https://arxiv.org/abs/2402.05054
源代码:https://github.com/3DTopia/LGM
从四个视角图片中合成高分辨率三维表征,进而通过已有的文本到多视角图像或单图到多视角图像的模型。
六、Unique3D
论文:https://www.semanticscholar.org/paper/Unique3D%3A-High-Quality-and-Efficient-3D-Mesh-from-a-Wu-Liu/dac2d86182abcc25ad66ec1a73646ca06087772f
源代码:AiuniAI/Unique3D: Official implementation of Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image (github.com)
Comfyui安装:jtydhr88/ComfyUI-Unique3D: ComfyUI Unique3D is custom nodes that running AiuniAI/Unique3D into ComfyUI (github.com)
2024年六月清华大学开源:单张图片→3D模型转换框架,结合多视图扩散模型和法线扩散模型,采用多级上采样方法、ISOMER网格重建算法,效果优于CRM、OpenLRM等模型。
总结
### 文章总结**前言**
随着二维图像生成技术的日益成熟,三维空间内容的生成逐渐成为行业热点,面临诸多挑战。本文基于comfyui,汇总了近两年来最新的图像到3D模型的生成技术,力求为相关研究提供参考。
**Stable Video 3D(sv3d)**
- **版本**:有两个版本,SV3D_u和SV3D_p。前者基于单张图像生成轨道视频,后者能按照指定相机路径创建3D模型视频。
- **优点**:灵活高效,可拓展性强,适用于影视、游戏开发等多个领域。
- **缺点**:输入图片质量对结果影响大,生成速度较慢,需要高性能计算资源。
**TripoSR**
- **基础**:基于LRM和Transformer架构,专为单图像3D重建设计。
- **组件**:包括图像编码器、图像到三平面解码器和基于三平面的神经辐射场(NeRF)。
- **优劣**:制作效率高,响应快,但生成质量一般。
**LRM系列**
- **LRM**:基于transformer的编码器-解码器架构,实现单个图像到3D对象表示的数据驱动方法。
- **GS-LRM**:扩展LRM,采用高斯参数可微分渲染,处理复杂场景更自然,速度快且质量高。
- **OpenLRM**:基于LRM,优化注意力机制,结合DINOv2编码器,适用于大规模数据集处理。
**CRM**
- **特点**:将几何先验知识整合到网络设计中,从单图生成六张正射图并馈送给卷积U-Net,创建高分辨率3D视图。
- **应用**:通过卷积重建模型快速生成高质量三维纹理网格。
**LGM**
- **功能**:使用四视角图片合成高分辨率三维表征,结合现有模型进行多视角图像合成或单图到多图转换。
**Unique3D**
- **成果**:清华大学2024年6月开源的单图到3D模型转换框架。
- **特点**:结合多视图和法线扩散模型,采用多级上采样方法和ISOMER网格重建,效果优于CRM、OpenLRM等模型。
总结而言,本文详细介绍了六种在图像到3D模型转换领域的最新方法,这些方法各具特色,在不同应用场景中展现了强大的潜力和价值。