定义
人工智能三维生成是指利用深度神经网络学习并生成物体或场景的三维模型,并在三维模型的基础上将色彩与光影赋予物体或场景使生成结果更加逼真。在应用中,生成物体或场景的三维模型称为三维建模,生成三维模型的色彩与光影称为三维渲染。
主要类型
三维生成中学习与生成的三维数据可分为显性表达数据与隐性表达数据两类,显性表达数据主要包括体素栅格、点云与网格;隐性表达数据是以神经网络参数表达的三维场景,即神经场。根据学习与生成的三维数据类型,人工智能三维生成可以分为显性数据驱动型与隐性数据驱动型。
在利用人工智能技术前,传统的三维生成工作中全部使用显性表达的三维数据,因此早期人工智能三维生成的研究同样聚焦于学习并生成显性表达的三维数据,这类人工智能三维生成可以称为原生三维型。
人工智能直接学习与生成三维数据存在诸多问题,其中的重点问题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,许多人工智能三维生成的研究聚焦于从二维图像中学习并生成三维数据,这类人工智能三维生成可以称为二维升维型。
技术发展的关键阶段
2018年前受限于技术发展,仅有原生三维型人工智能三维生成应用,使用的模型有VAE模型、流模型、GAN模型、EBM模型、扩散模型等,其中GAN模型在生成效果方面的优势使其在2022年前一直是人工智能三维生成的主流模型,但由于训练难度极大,对硬件要求极高等问题,产业级应用发展十分受限。
由于二维图像生成技术的快速进步与应用的蓬勃发展,因此二维升维型是目前人工智能三维生成研究与应用的关注重点。
● 2018年-2020年:二维升维萌芽期
2018年,将三维内容表达为神经网络参数的神经场诞生。虽然神经场表达的仍然是三维数据,且由于缺乏学习数据在2018年至2020间其发展速度十分缓慢,但为二维升维派奠定了技术基础。
● 2020年-2022年:二维升维技术发展期
2020年,伯克利、谷歌与加大圣地亚哥分校的联合团队提出神经辐射场(NeRF)算法。神经辐射场算法可以从静态二维图像中感知其三维属性,生成内容统一但视角不同的二维图像,即具备三维感知的图像。由于生成的图像精度高且可以生成大场景的三维感知图像,因此受到广泛关注且出现大量相关研究,加速二维升维技术发展。在应用方面,由于训练难度大、对硬件要求高、生成效率低等问题,仅能进行试验性与娱乐性的小范围应用。在产业应用方面,虽然出现将显性表达与隐性表达相结合的相关研究,但除以上问题外,在与传统三维生成工作的衔接和满足产业应用要求方面仍然存在诸多问题,因此产业应用发展缓慢。
● 2022年-至今:二维升维应用探索期
2022年中,以Stable Diffusion、Dall·E为代表的二维图像生成应用快速发展,生成的二维图像质量与想象力迅速提升。得益于此,二维升维型三维生成应用的商业化价值进一步提升,产业界对其关注度因此迅速提升,技术发展再次提速。目前,二维升维型三维生成的训练难度、对硬件要求、生成效率等仍然是其应用商业化的巨大阻碍,但产业界公司加强了其与传统三维生成工作的衔接性,并尝试开发产业级应用,二维升维型三维生成应用的商业化仍然有待探索。
主流模型实现原理及优缺点
● Dream Fields模型
2021年末,Dream Fields模型首次将CLIP¹模型与NeRF模