易观:今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。
报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。
在本期图像生成篇中,报告从经典的GAN技术到目前主流的扩散模型展开,分析了图像质量、多样性、稳定性、可控性等模型关键能力的应用表现,以及在进行商业化落地时,来自数据、产品化、监管合规等方面的挑战和解决思路。
导语
图像作为人工智能内容生成的一种模态,一直在AIGC领域中扮演着重要角色,由于图像生成应用的广泛性和实用性,使其受到学术界和产业界相当多的关注。近年来,图像生成技术也取得了很多关键性突破,从经典的GAN技术到目前主流的扩散模型,以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型,极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时,生成速度和稳定性的提升、可控性和多样性的增强,以及数据隐私和知识产权等问题,也需要在图像生成向各行各业渗透的过程中进行解决和探索。
本报告将聚焦于图像生成的技术发展和产业应用情况,提出影响模型应用能力的关键因素、商业化过程中的落地挑战,并展望未来的发展方向,以期为AIGC领域的应用开发者和使用者提供参考和借鉴。
定义
图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同,图像生成主要包括图像合成(image composition),根据现有的图片生成新图像(image-to-image),以及根据文本描述生成符合语义的图像(text-to-image)等。
主要类型和应用领域
根据图像构成的类型,图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图,图像生成模型可实现不同图像类型的转换。
在实际应用中,模型的效果表现主要体现在生成图像的质量和图像的多样性,其在平面设计、游戏制作、动画制作等领域均有广泛的应用,另外,在医学影像合成与分析,化合物合成和药物发现等方面,图像生成也具有很大的应用潜力。
技术发展的关键阶段
作为计算机视觉领域的重要组成部分,图像生成的技术发展大致经历了三个关键阶段:
● GAN生成阶段:
生成对抗网络(GAN)是上一代主流图像生成模型,GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力,使生成式网络的数据愈发趋近真实数据,从而达到生成逼真图像的目的。但在发展过程中,GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。
● 自回归生成阶段:
自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验,利用Transformer结构中的自注意力机制能够优化GAN的训练方式,提高了模型的稳定性和生成图像的合理性,但基于自回归模型的图像生成在推理速度和训练成本方面的问题,使其实际应用受限。
● 扩散模型生成阶段:
对于前代模型在性能方面的局限性,扩散模型(Diffusion Model)已经使这些问题得到解决,其在训练稳定性和结果准确性的效果提升明显,因此迅速取代了GAN的应用。而对