AIGC产业研究报告2023——视频生成篇

易观：今年以来，随着人工智能技术不断实现突破迭代，生成式AI的话题多次成为热门，而人工智能内容生成（AIGC）的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势，易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角，涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计（图生成）等领域的技术发展、关键能力、典型应用场景，我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络，为各领域的应用开发者和使用者提供参考。

在本期视频生成篇中，报告梳理了视频生成技术的发展阶段和主流模型，分析了影响模型应用能力的关键因素、市场上的主流产品及商业模式，并提出在进行商业化落地时，来自易用性、可控性、合规性三个方面的挑战。

定义

视频生成是指通过对人工智能的训练，使其能够根据给定的文本、图像、视频等单模态或多模态数据，自动生成符合描述的、高保真的视频内容。

主要类型和应用领域

基于应用视角可以对视频生成的方式做进一步细分，包括剪辑生成、特效生成和内容生成，三种方式的结合使用可以大量应用在电影电视、游戏、短视频、广告等视觉制作领域，在工业设计、建筑设计、教育培训等行业也可以提供更加直观的演示效果。

技术发展的关键阶段

视频生成的技术发展可以大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归和扩散模型生成几个关键阶段，随着深度学习的发展，视频生成无论在画质、长度、连贯性等方面都有了很大提升。但由于视频数据的复杂性高，相较于语言生成和图像生成，视频生成技术当前仍处于探索期，各类算法和模型都存在一定的局限性。

● 图像拼接生成阶段：

在早期阶段，视频生成主要基于图像-图像技术，通过将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为简单易用，但缺点是生成的视频质量低、连贯性较差。

● GAN/VAE/Flow-based生成阶段：

随着机器学习技术的发展，生成对抗网络（GAN）、变分自编码器（VAE）以及基于流的模型（Flow-based model）开始被用于视频生成任务，这个阶段的发展主要集中在改进模型训练和生成算法，由于对视频直接建模的难度很高，一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频，或是基于对图像的翻译来改进生成效果，以加强连续帧之间的平滑过渡，但总体效果上生成视频的质量仍然较低，难以实际应用。

● 自回归和扩散模型阶段：

随着Transformer、Stable Diffusion在语言生成、图像生成领域取得的成功，基于自回归模型和扩散模型的视频生成架构逐渐成为主流，自回归模型可以根据先前的帧来预测下一帧，视频较为连贯自然，但存在生成效率低且错误易积累的问题。一些研究将扩散模型在图像生成研究成果成功迁移到了视频生成中，通过对图像生成架构的改进使其适应视频生成任务，这种方法的优点是生成的视频具有高保真的效果，但相应地也需要更多的训练数据、时间和计算资源。在这个阶段，视频仍然不可避免地出现跳帧现象，以及内容表现的逻辑性欠缺等问题。

主流模型实现原理及优缺点

● 主流模型解析

Imagen-Video

1、实现原理：Imagen-Video是在Imagen模型基础上开发的基于