AIGC产业研究报告 2023——图像生成篇

易观：今年以来，随着人工智能技术不断实现突破迭代，生成式AI的话题多次成为热门，而人工智能内容生成（AIGC）的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势，易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角，涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计（图生成）等领域的技术发展、关键能力、典型应用场景，我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络，为各领域的应用开发者和使用者提供参考。

在本期图像生成篇中，报告从经典的GAN技术到目前主流的扩散模型展开，分析了图像质量、多样性、稳定性、可控性等模型关键能力的应用表现，以及在进行商业化落地时，来自数据、产品化、监管合规等方面的挑战和解决思路。

导语

图像作为人工智能内容生成的一种模态，一直在AIGC领域中扮演着重要角色，由于图像生成应用的广泛性和实用性，使其受到学术界和产业界相当多的关注。近年来，图像生成技术也取得了很多关键性突破，从经典的GAN技术到目前主流的扩散模型，以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型，极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时，生成速度和稳定性的提升、可控性和多样性的增强，以及数据隐私和知识产权等问题，也需要在图像生成向各行各业渗透的过程中进行解决和探索。

本报告将聚焦于图像生成的技术发展和产业应用情况，提出影响模型应用能力的关键因素、商业化过程中的落地挑战，并展望未来的发展方向，以期为AIGC领域的应用开发者和使用者提供参考和借鉴。

定义

图像生成是指运用人工智能技术，根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同，图像生成主要包括图像合成（image composition），根据现有的图片生成新图像（image-to-image），以及根据文本描述生成符合语义的图像（text-to-image）等。

主要类型和应用领域

根据图像构成的类型，图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图，图像生成模型可实现不同图像类型的转换。

在实际应用中，模型的效果表现主要体现在生成图像的质量和图像的多样性，其在平面设计、游戏制作、动画制作等领域均有广泛的应用，另外，在医学影像合成与分析，化合物合成和药物发现等方面，图像生成也具有很大的应用潜力。

技术发展的关键阶段

作为计算机视觉领域的重要组成部分，图像生成的技术发展大致经历了三个关键阶段：

● GAN生成阶段：

生成对抗网络（GAN）是上一代主流图像生成模型，GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力，使生成式网络的数据愈发趋近真实数据，从而达到生成逼真图像的目的。但在发展过程中，GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。

● 自回归生成阶段：

自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验，利用Transformer结构中的自注意力机制能够优化GAN的训练方式，提高了模型的稳定性和生成图像的合理性，但基于自回归模型的图像生成在推理速度和训练成本方面的问题，使其实际应用受限。

● 扩散模型生成阶段：

对于前代模型在性能方面的局限性，扩散模型（Diffusion Model）已经使这些问题得到解决，其在训练稳定性和结果准确性的效果提升明显，因此迅速取代了GAN的应用。而对