【AIGC从零开始】AIGC小白学习心得第二讲：3D生成模型

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言一、Stable Video 3D（sv3d）二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五、LGM 六、Unique3D

前言

二维的图像生成已经愈来愈趋近成熟，三维空间内的内容生成近年来得到广泛的关注，3D生成任务也面临着更大的挑战。
本文围绕comfyui，整理记录了近两年来最新的图生3D模型，如有错误缺失，还请大家斧正。

一、Stable Video 3D（sv3d）

SV3D具有两个版本：SV3D_u和SV3D_p。SV3D_u基于单张图像生成轨道视频，而SV3D_p则扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。
优点：灵活高效、可拓展性强（影视制作、游戏开发、工业设计）。
需注意：输入图片的质量对结果影响很大，需要选择高质量的图片输入；生成速度较慢，需要一定的计算资源。

二、TripoSR

论文：https://www.semanticscholar.org/paper/TripoSR%3A-Fast-3D-Object-Reconstruction-from-a-Image-Tochilkin-Pankratz/4299b79ef41601cf6e3e0603f7216d72b6d1315f
源代码：VAST-AI-Research/TripoSR (github.com)

TripoSR的设计基于LRM，利用 Transformer 架构，专为单图像 3D 重建而设计。它采用单个 RGB 图像作为输入，并输出图像中对象的 3D 表示。
TripoSR 的核心包括以下组件：图像编码器、图像到三平面解码器和基于三平面的神经辐射场 (NeRF)。
优劣：制作效率高、响应速度快，生成质量一般。

三、LRM系列

1.LRM

论文：2311.04400 (arxiv.org)

LRM方法采用基于transformer的编码器-解码器架构，以数据驱动的方式从单个图像中获取3D对象表示。
LRM使用预训练的视觉转换器DINO作为图像编码器来生成图像特征。随后，该算法学习图像到三平面转换器解码器，通过交叉注意力将二维图像特征投射到三维三平面上，通过自注意力有效地模拟空间结构三平面补丁之间的关系。

2.GS-LRM

论文：https://www.semanticscholar.org/paper/GS-LRM%3A-Large-Reconstruction-Model-for-3D-Gaussian-Zhang-Bi/8ed0477f640fa3a2d5411155e445d13752821629

GS-LRM模型采用了一个简单的基于transformer的架构，包括将输入姿态图像分块，通过一系列的transformer块传递拼接的多视图图像标记，并从这些标记中直接解码最终的逐像素高斯参数进行可微分渲染。与只能重建对象的先前的LRM不同，通过预测逐像素高斯，GS-LRM可以自然地处理尺度大、复杂度高的场景，响应速度更快、质量更高。

3.OpenLRM

源代码：3DTopia/OpenLRM: An open-source impl. of Large Reconstruction Models (github.com)

OpenLRM基于LRM，利用高效的记忆优化注意力机制（基于xFormers），结合DINOv2编码器的强大功能，实现了在大规模数据集（如Objaverse和MVImgNet）上的训练，能够处理高维度特征映射。

四、CRM

论文：https://www.semanticscholar.org/reader/2177967931f395f88faa630019e3cd9b1831ffc1
源代码：thu-ml/CRM: [ECCV 2024] Single Image to 3D Textured Mesh in 10 seconds with Convolutional Reconstruction Model. (github.com)
Comfyui安装：flowtyone/ComfyUI-Flowty-CRM：这是一个自定义节点，可让您直接从 ComfyUI 使用卷积重建模型。 (github.com)

CRM强调了将几何先验知识整合到网络设计中的必要性，其建立在关键观察的基础上，首先，它从单个输入图像生成六张正射视图图像，然后将这些图像馈送到卷积U-Net中，利用其强大的像素级对齐能力和可观的带宽来创建高分辨率的3d视图。

五、LGM

论文：https://arxiv.org/abs/2402.05054
源代码：https://github.com/3DTopia/LGM

从四个视角图片中合成高分辨率三维表征，进而通过已有的文本到多视角图像或单图到多视角图像的模型。

六、Unique3D

论文：https://www.semanticscholar.org/paper/Unique3D%3A-High-Quality-and-Efficient-3D-Mesh-from-a-Wu-Liu/dac2d86182abcc25ad66ec1a73646ca06087772f
源代码：AiuniAI/Unique3D: Official implementation of Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image (github.com)
Comfyui安装：jtydhr88/ComfyUI-Unique3D: ComfyUI Unique3D is custom nodes that running AiuniAI/Unique3D into ComfyUI (github.com)

2024年六月清华大学开源：单张图片→3D模型转换框架，结合多视图扩散模型和法线扩散模型，采用多级上采样方法、ISOMER网格重建算法，效果优于CRM、OpenLRM等模型。

总结

### 文章总结
**前言**
随着二维图像生成技术的日益成熟，三维空间内容的生成逐渐成为行业热点，面临诸多挑战。本文基于comfyui，汇总了近两年来最新的图像到3D模型的生成技术，力求为相关研究提供参考。
**Stable Video 3D（sv3d）**
- **版本**：有两个版本，SV3D_u和SV3D_p。前者基于单张图像生成轨道视频，后者能按照指定相机路径创建3D模型视频。
- **优点**：灵活高效，可拓展性强，适用于影视、游戏开发等多个领域。
- **缺点**：输入图片质量对结果影响大，生成速度较慢，需要高性能计算资源。
**TripoSR**
- **基础**：基于LRM和Transformer架构，专为单图像3D重建设计。
- **组件**：包括图像编码器、图像到三平面解码器和基于三平面的神经辐射场（NeRF）。
- **优劣**：制作效率高，响应快，但生成质量一般。
**LRM系列**
- **LRM**：基于transformer的编码器-解码器架构，实现单个图像到3D对象表示的数据驱动方法。
- **GS-LRM**：扩展LRM，采用高斯参数可微分渲染，处理复杂场景更自然，速度快且质量高。
- **OpenLRM**：基于LRM，优化注意力机制，结合DINOv2编码器，适用于大规模数据集处理。
**CRM**
- **特点**：将几何先验知识整合到网络设计中，从单图生成六张正射图并馈送给卷积U-Net，创建高分辨率3D视图。
- **应用**：通过卷积重建模型快速生成高质量三维纹理网格。
**LGM**
- **功能**：使用四视角图片合成高分辨率三维表征，结合现有模型进行多视角图像合成或单图到多图转换。
**Unique3D**
- **成果**：清华大学2024年6月开源的单图到3D模型转换框架。
- **特点**：结合多视图和法线扩散模型，采用多级上采样方法和ISOMER网格重建，效果优于CRM、OpenLRM等模型。
总结而言，本文详细介绍了六种在图像到3D模型转换领域的最新方法，这些方法各具特色，在不同应用场景中展现了强大的潜力和价值。