当前位置:AIGC资讯 > AIGC > 正文

AIGC产业研究报告2023——视频生成篇

易观:今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。

在本期视频生成篇中,报告梳理了视频生成技术的发展阶段和主流模型,分析了影响模型应用能力的关键因素、市场上的主流产品及商业模式,并提出在进行商业化落地时,来自易用性、可控性、合规性三个方面的挑战。

定义

视频生成是指通过对人工智能的训练,使其能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。

主要类型和应用领域

基于应用视角可以对视频生成的方式做进一步细分,包括剪辑生成、特效生成和内容生成,三种方式的结合使用可以大量应用在电影电视、游戏、短视频、广告等视觉制作领域,在工业设计、建筑设计、教育培训等行业也可以提供更加直观的演示效果。

技术发展的关键阶段

视频生成的技术发展可以大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归和扩散模型生成几个关键阶段,随着深度学习的发展,视频生成无论在画质、长度、连贯性等方面都有了很大提升。但由于视频数据的复杂性高,相较于语言生成和图像生成,视频生成技术当前仍处于探索期,各类算法和模型都存在一定的局限性。

● 图像拼接生成阶段:

在早期阶段,视频生成主要基于图像-图像技术,通过将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为简单易用,但缺点是生成的视频质量低、连贯性较差。

● GAN/VAE/Flow-based生成阶段:

随着机器学习技术的发展,生成对抗网络(GAN)、变分自编码器(VAE)以及基于流的模型(Flow-based model)开始被用于视频生成任务,这个阶段的发展主要集中在改进模型训练和生成算法,由于对视频直接建模的难度很高,一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频,或是基于对图像的翻译来改进生成效果,以加强连续帧之间的平滑过渡,但总体效果上生成视频的质量仍然较低,难以实际应用。

● 自回归和扩散模型阶段:

随着Transformer、Stable Diffusion在语言生成、图像生成领域取得的成功,基于自回归模型和扩散模型的视频生成架构逐渐成为主流,自回归模型可以根据先前的帧来预测下一帧,视频较为连贯自然,但存在生成效率低且错误易积累的问题。一些研究将扩散模型在图像生成研究成果成功迁移到了视频生成中,通过对图像生成架构的改进使其适应视频生成任务,这种方法的优点是生成的视频具有高保真的效果,但相应地也需要更多的训练数据、时间和计算资源。在这个阶段,视频仍然不可避免地出现跳帧现象,以及内容表现的逻辑性欠缺等问题。

主流模型实现原理及优缺点

● 主流模型解析

Imagen-Video

1、实现原理:Imagen-Video是在Imagen模型基础上开发的基于

更新时间 2024-01-02