Stable Diffusion的结构要被淘汰了吗？详细解读谷歌最新大杀器VideoPoet

Diffusion Models视频生成-博客汇总

前言：视频生成领域长期被Stable Diffusion统治，大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层，学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限，但是都没有对业界带来特别有影响力的工作。最近谷歌出手了，拿出了Decoder-Only结构视频生成模型，堪称王炸！华为曾经出过Decoder-Only的模型(还被群嘲过)，但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成tokens组合在一起是多么具有想象力的事情！明年的ChatGPT-5也会是这样的形态吗？