Sora是『神笔马良』还是AI怪物？首篇综述一探乾坤！

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&笔者的个人理解

Sora是一种文本到视频生成的人工智能模型，由OpenAI于2024年2月发布。该模型经过训练，能够从文本指令中生成逼真或想象的场景视频，并显示出在模拟物理世界方面的潜力。基于公开的技术报告和逆向工程，本文对该模型的背景、相关技术、应用、尚存挑战以及文本到视频人工智能模型未来发展方向进行了全面审查。我们首先追溯了Sora的发展历程，并调查了用于构建这个"世界模拟器"的基础技术。然后，我们详细描述了Sora在从电影制作、教育到营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和限制，以广泛部署Sora，例如确保视频生成的安全和无偏见性。最后，我们讨论了Sora和视频生成模型的未来发展，以及该领域的进步如何可能促进人机交互的新方式，提升视频生成的生产力和创造力。

关于Sora的背景

历史回顾

在计算机视觉（CV）领域，在深度学习革命之前，传统的图像生成技术依赖于诸如纹理合成和纹理映射等基于手工制作特征的方法。然而，这些方法在生成复杂和生动图像的能力方面受到了限制。生成对抗网络（GANs）和变分自动编码器（VAEs）的引入标志着一个重大的转折点，因为它们在各种应用中展现了显著的能力。随后的发展，如流模型和扩散模型，进一步增强了图像生成的细节和质量。人工智能生成内容（AIGC）技术的最新进展使内容创作民主化，使用户能够通过简单的文本指令生成所需的内容。

在过去的十年里，生成CV模型的发展已经采取了各种路线，如图3所示。这个景观在成功将Transformer架构应用于NLP中后开始显着变化，如BERT和GPT所示。在CV中，研究人员进一步将这一概念发展，将Transformer架构与视觉组件结合起来，使其能够应用于下游CV任务，如Vision Transformer（ViT）和Swin Transformer。与Transformer的成功并行的是，扩散模型在图像和视频生成领域也取得了显著进展。扩散模型提供了一个数学上合理的框架，用于将噪声转换为带有U-Nets的图像，其中U-Nets通过学习在每个步骤预测和减轻噪声来促进这一过程。

自2021年以来，人工智能的一个重要焦点是能够解释人类指令的生成语言和视觉模型，即多模型。例如，CLIP 是一种开创性的视觉语言模型，它将Transformer架构与视觉元素结合起来，促进了它在大量文本和图像数据集上的训练。通过从一开始就整合视觉和语言知识，CLIP可以在多模式生成框架内作为图像编码器运行。另一个值得注意的例子是Stable Diffusion，这是一种通用的文本到图像AI模型，因其适应性和易用性而备受赞誉。它采用Transformer架构和潜在扩散技术来解码文本输入并生成各种风格的图像，进一步说明了多模式AI的进步。

在2022年11月发布ChatGPT后，我们见证了2023年商业文本到图像产品的出现，如Stable Diffusion，Midjourney，DALL-E 3。这些工具使用户能够通过简单的文本提示生成高分辨率和高质量的新图像，展示了AI在创造性图像生成方面的潜力。然而，从文本到视频的过渡在于视频的时间复杂性而具有挑战性。尽管工业界和学术界做出了大量努力，但大多数现有的视频生成工具，如Pika和Gen-2，仅限于生成几秒钟的短视频片段。在这种情况下，Sora代表了一个重大突破，类似于ChatGPT在NLP领域的影响。Sora是第一个能够根据人类指令生成长达一分钟的视频的模型，标志着生成AI研究和发展中的一个里程碑。为了便于获取最新的视觉生成模型的最新进展，最近的研究成果已经编译并提供在附录和我们的GitHub中。

概念解释

视觉模型的规模定律。随着LLMs的规模定律，自然会问视觉模型的发展是否遵循类似的规模定律。最近，翟等人表明，对于足够的训练数据，ViT模型的性能-计算边界大致遵循（饱和）幂律。紧随其后，谷歌研究提出了一种高效稳定地训练22B参数ViT的方法。结果表明，可以使用冻结模型生成嵌入，并在其上训练薄层以获得良好的性能。作为一个大型视觉模型（LVM），Sora符合这些规模定律，揭示了文本到视频生成中的几个新能力。这一重大进展突显了LVMs实现LLMs类似进展的潜力。

新兴能力。LLMs中的新兴能力是在某些尺度上表现出的复杂行为或功能------通常与模型参数的大小相关------这些能力并不是由其开发人员明确编程或预期的。这些能力被称为"新兴"，因为它们源于模型在各种数据集上的

全面训练，加上其大量的参数数量。这种组合使得模型能够建立连接和进行推理，超越了简单的模式识别或死记硬背。通常情况下，这些能力的出现不能通过从较小规模模型的性能推断来直接预测。虽然许多LLMs，如Chat-GPT和GPT-4，都表现出了新兴能力，但在Sora出现之前，展示出可比较能力的视觉模型却很少。根据Sora的技术报告，它是第一个展示出确认的新兴能力的视觉模型，标志着计算机视觉领域的一个重大里程碑。

除了其新兴能力外，Sora还表现出其他显著的能力，包括指令遵循、视觉提示工程和视频理解。Sora功能的这些方面代表了视觉领域的重大进步，将在接下来的部分中探讨和讨论。

详解SoRA技术

概述

从核心本质上讲，Sora 是一个具有灵活采样维度的扩散Transformer，如图 4 所示。它分为三个部分：(1) 一个时间-空间压缩器首先将原始视频映射到潜在空间中。(2) 然后，一个 ViT 处理标记化的潜在表示，并输出去噪的潜在表示。(3) 一个类似于 CLIP 的条件机制接收 LLM 增强的用户指令和潜在的视觉提示，以指导扩散模型生成风格化或主题化的视频。经过许多去噪步骤，生成视频的潜在表示被获取，然后与相应的解码器映射回像素空间。

在本节中，我们旨在逆向工程 Sora 使用的技术，并讨论一系列相关工作。

数据预处理

可变持续时间、分辨率、长宽比

Sora 的一个显著特点是其能够训练、理解和生成视频和图像，并以它们的原生尺寸，如图 5 所示。传统方法通常会调整视频的大小、裁剪或调整长宽比以适应统一的标准------通常是具有固定低分辨率的正方形帧的短片。这些样本通常是以更宽的时间步幅生成的，并依赖于分别训练的帧插入和分辨率渲染模型作为最后一步，从而在视频中产生不一致性。利用扩散Transformer架构（见第 3.2.4 节），Sora 是第一个接受视觉数据多样性并且能够在各种视频和图像格式中采样的模型，范围从宽屏 1920x1080p 视频到竖屏 1080x1920p 视频，以及所有介于两者之间的内容，而不会损害其原始尺寸。

在其原生尺寸的数据上进行训练显著提高了生成视频的构图和构图在生成的视频中表现出更自然和连贯的视觉叙事。通过保持原始长宽比，Sora 实现了更自然和连贯的视觉叙事。如图 6 所示，Sora 和模型在统一裁剪的正方形视频上训练的比较清楚地表明了其优势。由 Sora 生成的视频呈现出更好的构图，确保主题完全出现在场景中，而不是由于正方形裁剪而导致有时截断的视图。

对原始视频和图像特征的这种微妙理解和保留标记了生成模型领域的一项重大进步。Sora 的方法不仅展示了更真实和吸引人的视频生成的潜力，还突显了训练数据多样性对于在生成 AI 中获得高质量结果的重要性。Sora 的训练方法与 Richard Sutton 的"苦涩教训" 的核心理念一致，即利用计算能力而不是人类设计的特征可以实现更有效和灵活的 AI 系统。就像扩散Transformer的原始设计追求简单和可扩展性一样，Sora 在原始尺寸上训练数据的策略放弃了传统的 AI 对人类衍生抽象的依赖，而是更倾向于一种随着计算能力扩展的通用方法。在本节的其余部分，我们尝试逆向工程 Sora 的架构设计，并讨论相关技术来实现这一令人惊叹的功能。

统一的视觉表示

为了有效处理包括持续时间、分辨率和长宽比在内的各种形式的视觉输入，特别是Transformer令牌的后处理和输出去噪的潜在表示。一个类似于 CLIP 的条件机制接收经过 LLM 增强的用户指令和潜在的视觉提示，以指导扩散模型生成风格化或主题化的视频。经过许多去噪步骤，生成视频的潜在表示被获取，然后与相应的解码器映射回像素空间。在本节中，我们旨在逆向工程 Sora 使用的技术，并讨论一系列相关工作。

视频压缩网络

Sora 的视频压缩网络（或视觉编码器）旨在减少输入数据的维度，特别是原始视频，并输出一个压缩的潜在表示，该表示在时间和空间上都被压缩，如图 7 所示。根据技术报告中的参考文献，压缩网络建立在 VAE 或向量量化-VAE（VQ-VAE）上。然而，如果不使用调整大小和裁剪，VAE 将难以将任何大小的视觉数据映射到统一且固定大小的潜在空间中。我们总结了两种不同的实现来解决这个问题：

空间补丁压缩。这涉及将视频帧转换为固定大小的补丁，类似于 ViT 和 MAE 中采用的方法（见图 8），然后将它们编码为潜在空间。这种方法对于容纳各种分辨率和长宽比的视频尤其有效，因为它通过处理单个补丁来编码整个帧。随后，这些空间令牌被组织成一个时空顺序，以创建一个空间-时间潜在表示。这种技术突出了几个关键考虑因素：

时间维度的可变性------鉴于训练视频的持续时间不同，潜在空间表示的时间维度不能固定。为了解决这个问题，可以采样特定数量的帧（对于更短的视频可能需要填充或时间插值），或者定义一个通用扩展（超长）的输入长度以进行后续处理；利用预训练的视觉编码器------为了处理高分辨率视频，大多数研究人员都建议利用现有的预训练的视觉编码器，例如来自 Stable Diffusion 的 VAE 编码器，而 Sora 的团队则预计通过训练自己的压缩网络（视频生成器）来获得一个解码器（视频生成器）（通过训练潜在扩散模型的方式）。这些编码器可以高效地压缩大尺寸的补丁（例如 256 × 256），便于管理大规模数据；时间信息聚合------由于这种方法主要侧重于空间补丁压缩，因此需要一种额外的机制来聚合模型内的时间信息。这一方面对于捕捉随时间动态变化至关重要，并且在后续章节中进行了进一步的阐述。

空间-时间补丁压缩。这种技术旨在封装视频数据的空间和时间维度，提供全面的表示。这种技术不仅仅分析静态帧，还考虑了帧间的运动和变化，从而捕捉视频的动态方面。采用 3D 卷积出现为实现这种集成的一种直接而有效的方法。图形说明和与纯空间-补丁化的比较如图 9 所示。与空间补丁压缩类似，采用带有预定卷积核参数的空间-时间补丁压缩------例如固定的核大小、步幅和输出通道------由于视频输入的特征不同而导致潜在空间维度的变化。这种变化主要受到正在处理的视频的不同持续时间和分辨率的影响。为了缓解这一挑战，采用的空间补丁化方法在这种情况下同样适用且有效。

总而言之，我们根据 VAE 或其变体（如 VQ-VQE）对两种补丁级压缩方法进行了逆向工程，因为对补丁的操作更灵活，能够处理不同类型的视频。由于 Sora 的目标是生成高保真度的视频，因此采用了较大的补丁大小或核大小以进行高效压缩。在这里，我们期望使用固定大小的补丁以简化、扩展和训练稳定性。但也可以使用不同大小的补丁使潜在空间中的整体帧或视频的维度保持一致。然而，这可能会导致无效的位置编码，并且对于生成具有不同大小潜在补丁的视频，会带来挑战。

时空潜在补丁

在压缩网络部分仍存在一个关键问题：如何处理潜在空间维度的可变性（即来自不同视频类型的潜在特征块或补丁的数量），然后将这些补丁馈送到扩散Transformer的输入层。在这里，我们讨论了几种解决方案。基于 Sora 的技术报告和相应的参考文献，patch n' pack（PNP）可能是解决方案。PNP 将来自不同图像的多个补丁打包到单个序列中，如图 10 所示。这种方法受自然语言处理中使用的示例打包的启发，通过丢弃标记来有效地训练变长输入。在这里，补丁化和标记嵌入步骤需要在压缩网络中完成，但 Sora 可能会进一步将潜在补丁化为Transformer标记，如扩散Transformer所做的。无论是否有第二轮的补丁化，我们都需要解决两个问题，即如何以紧凑的方式打包这些标记以及如何控制哪些标记应该被丢弃。对于第一个问题，采用简单的贪婪方法，该方法将示例添加到具有足够剩余空间的第一个序列中。一旦没有更多的示例可以适合，序列将用填充标记填充，产生需要进行批处理操作的固定序列长度。这样简单的打包算法可能会导致重大的填充，这取决于输入长度的分布。另一方面，我们可以通过调整序列长度和限制填充来控制我们采样的分辨率和帧数以确保有效的打包。对于第二个问题，一种直观的方法是丢弃相似的标记或者像 PNP 一样应用丢弃率调度器。然而，值得注意的是，时空一致性是 Sora 的一个很好的特性之一。丢弃标记可能会在训练过程中忽略细粒度的细节。因此，我们相信 OpenAI 可能会使用一个超长的上下文窗口并将所有来自视频的标记打包在一起，尽管这样做是计算昂贵的，例如，多头注意力操作符在序列长度方面表现出二次成本。具体来说，来自长时间视频的时空潜在补丁可以打包在一个序列中，而来自几个短时间视频的补丁则连接在另一个序列中。

讨论

我们讨论了 Sora 可能使用的两种数据预处理的技术解决方案。由于其灵活性和可扩展性的特点，在补丁级别执行这两种解决方案。与先前的方法不同，先前的方法将视频调整大小、裁剪或修剪到标准尺寸，Sora 在其原生尺寸上对数据进行训练。尽管有几个好处（详见第 3.2.1 节中的详细分析），但它带来了一些技术挑战，其中最重要的之一是神经网络本质上无法处理可变持续时间、分辨率和长宽比的视觉数据。通过逆向工程，我们相信 Sora 首先将视觉补丁压缩为低维潜在表示，并将这些潜在补丁或进一步的补丁化的潜在补丁排列成一个序列，然后在将其馈送到扩散Transformer的输入层之前注入噪声。Sora 采用空间-时间补丁化是因为它易于实现，并且可以通过具有高信息密度的令牌有效地减少上下文长度并降低后续建模的复杂性。对于研究界，我们建议使用成本效率更高的替代方案进行视频压缩和表示，包括利用预训练检查点（例如，压缩网络），缩短上下文窗口，使用轻量级建模机制（例如（分组）多查询注意力）或高效架构（例如 Mamba），对数据进行降采样并在必要时丢弃标记。在视频建模的效果和效率之间的权衡是一个重要的研究课题。

建模

扩散Transformer

图像扩散Transformer。传统的扩散模型主要利用卷积 U-Net，该 U-Net 包括用于去噪网络骨干的下采样和上采样块。然而，最近的研究表明，U-Net 架构对扩散模型的良好性能并不关键。通过结合更灵活的Transformer架构，基于Transformer的扩散模型可以使用更多的训练数据和更大的模型参数。沿着这条线，DiT 和 U-ViT 是首批采用视觉Transformer进行潜在扩散模型的作品之一。与 ViT 一样，DiT 使用多头自注意层和一个与一些层规范和缩放层交织的逐点前馈网络。此外，如图 11 所示，DiT 通过自适应层规范 (AdaLN) 来融合条件，其中还有一个额外的 MLP 层用于零初始化，它将每个残差块初始化为一个恒等函数，从而极大地稳定了训练过程。DiT 的可扩展性和灵活性经过了经验验证。DiT 成为扩散模型的新骨干。在 U-ViT 中，如图 11 所示，他们将所有输入（包括时间、条件和嘈杂的图像块）都视为标记，并提出了浅层和深层Transformer层之间的长跳连线。结果表明，在基于 CNN 的 U-Net 中，下采样和上采样操作并不总是必要的，而 U-ViT 在图像和文本到图像生成中实现了创纪录的 FID 分数。

与掩码自编码器 (MAE)类似，掩码扩散Transformer (MDT)将掩码潜在建模整合到扩散过程中，以明确增强图像合成中对象语义部分之间的上下文关系学习。具体而言，如图 12 所示，MDT 在训练期间使用侧插值来进行额外的掩码标记重构任务，以增强训练效率，并为推理学习强大的上下文感知位置嵌入。与 DiT相比，MDT 实现了更好的性能和更快的学习速度。哈塔米扎德等人引入了扩散视觉Transformer (DiffiT)，用于时序条件建模，而不是使用 AdaLN (即移位和缩放)。DiffiT 使用定时依赖自注意 (TMSA) 模块来模拟在采样时间步骤上的动态去噪行为。此外，DiffiT 分别在像素空间和潜在空间中使用了两种混合分层体系结构进行高效去噪，并在各种生成任务中实现了新的最先进结果。总的来说，这些研究展示了采用视觉Transformer进行图像潜在扩散的良好结果，为其他模态的未来研究铺平了道路。

视频扩散Transformer。在文本到图像 (T2I) 扩散模型的基础研究上，最近的研究集中于实现扩散Transformer在文本到视频 (T2V) 生成任务中的潜力。由于视频的时间性质，将 DiTs 应用于视频领域的关键挑战是：i) 如何将视频在空间上和时间上压缩到潜在空间以进行有效去噪；ii) 如何将压缩的潜在空间转换为块并将其馈送到Transformer；以及 iii) 如何处理长期时间和空间依赖性，并确保内容的一致性。在本节中，我们将重点讨论基于Transformer的去噪网络架构，该架构设计用于在空间和时间上压缩的潜在空间中运行。我们对 OpenAI Sora 技术报告参考列表中描述的两项重要工作（Imagen Video和 Video LDM）进行了详细审查。

Imagen Video是谷歌研究开发的文本到视频生成系统，它利用一系列扩散模型，包括 7 个子模型，执行文本条件视频生成、空间超分辨率和时间超分辨率，将文本提示转换为高清视频。如图 13 所示，首先，一个冻结的 T5 文本编码器从输入文本提示生成上下文嵌入。这些嵌入对于将生成的视频与文本提示对齐至关重要，并且除了基础模型之外，它们被注入到级联的所有模型中。随后，嵌入被馈送到基础模型进行低分辨率视频生成，然后通过级联扩散模型进行细化以增加分辨率。基础视频和超分辨率模型以时空可分离的方式使用 3D U-Net 架构。

时间注意力和卷积层与空间对应层相结合，以有效捕获帧间依赖关系。它使用 v-预测参数化来实现数值稳定性，并使用条件增强来促进跨模型的并行训练。该过程涉及对图像和视频的联合训练，将每个图像视为一帧以利用更大的数据集，并使用无分类器指导来增强提示的保真度。渐进蒸馏被应用于简化采样过程，显著降低了计算负载，同时保持了感知质量。将这些方法和技术结合起来，使 Imagen Video 能够生成不仅保真度高，而且可控性 remarkable 的视频，如其产生多样的视频、文本动画和各种艺术风格的内容所示。

Blattmann 等人提出将 2D 潜在扩散模型转变为视频潜在扩散模型 (Video LDM)。他们通过在现有的空间层之间添加一些事后时间层，将编码器和 VAE 解码器中的现有空间层转换为视频 LDM。这些时间层在编码的视频数据上进行训练，而空间层保持不变，使模型能够利用大型图像数据集进行预训练。LDM 的解码器被微调以在像素空间中保持时间一致性，并将扩散模型的上采样器在增强空间分辨率方面进行时间对齐。为了生成非常长的视频，模型被训练以在给定一定数量的上下文帧的情况下预测未来帧，从而允许在采样过程中无分类器指导。为了实现高时间分辨率，视频合成过程被分为关键帧生成和这些关键帧之间的插值。在级联的 LDM 之后，通过使用 DM 进一步将 Video LDM 的输出扩大 4 倍，从而确保了高空间分辨率同时保持时间一致性。这种方法以高效的方式实现了生成全局一致的长视频。此外，作者展示了将预训练的图像 LDMs（例如，稳定扩散）转换为文本到视频模型的能力，方法是仅训练时间对齐层，实现了分辨率高达 1280 × 2048 的视频合成。

讨论

用于空间和时间上采样的级联扩散模型。Sora 能够生成高分辨率视频。通过审查现有作品和我们的逆向工程，我们推测 Sora 也利用了级联扩散模型架构，它由一个基础模型和许多时空精炼器模型组成。鉴于在高分辨率情况下使用注意力机制的高计算成本和有限的性能提升，基础扩散模型和低分辨率扩散模型中不太可能大量使用注意力模块。对于空间和时间场景一致性，由于先前的作品表明，对于视频/场景生成，时间一致性比空间一致性更重要，因此 Sora 可能利用一种有效的训练策略，即使用更长的视频（用于时间一致性）以及更低的分辨率。此外，考虑到 v-参数化扩散模型相对于预测原始潜在变量 x 或噪声 ϵ 的其他变体具有更优越的性能，Sora 可能使用 v-参数化扩散模型。

关于潜在编码器。为了训练效率，大多数现有作品利用稳定扩散的预训练 VAE 编码器作为初始化模型检查点。然而，编码器缺乏时间压缩能力。即使一些作品提出仅微调解码器以处理时间信息，但在压缩潜在空间中处理视频时间数据的解码器性能仍然不够优化。根据技术报告，我们的逆向工程显示，与使用现有的预训练 VAE 编码器不同，Sora 可能使用从头开始在视频数据上训练的时空 VAE 编码器，这种编码器在视频导向的压缩潜在空间方面表现更好。

语言指令跟随

用户主要通过自然语言指令与生成式人工智能模型互动，这些指令被称为文本提示。模型指令调整旨在增强人工智能模型准确跟随指令的能力。这种改进的提示跟随能力使模型生成的输出更接近人类对自然语言查询的响应。我们从对大型语言模型（LLMs）和文本到图像模型（如 DALL·E 3）的指令跟随技术的回顾开始讨论。为了增强文本到视频模型跟随文本指令的能力，Sora 采用了与 DALLE3 类似的方法。该方法涉及训练一个描述性字幕生成器，并利用字幕生成器生成的数据进行微调。由于指令调整，Sora 能够满足各种用户请求，确保对指令中的细节进行细致注意，并生成精确满足用户需求的视频。

大型语言模型

对于LLMs的跟随指令的能力已经得到了广泛探讨。这种能力使LLMs能够阅读、理解和适当地响应描述一个未见任务的指令，而无需示例。通过在格式化为指令的任务的混合上对LLMs进行微调，即所谓的指令调整，获得和增强了提示跟随能力。Wei 等人表明，经过指令调整的LLMs在未见任务上显著优于未调整的LLMs。跟随指令的能力将LLMs转化为通用任务求解器，标志着人工智能发展史上的一次范式转变。

文本到图像

在DALL·E 3中，通过一种假设来解决指令跟随问题，即模型训练中的文本-图像对质量决定了结果文本到图像模型的性能。数据质量不佳，特别是嘈杂数据和短字幕的普遍存在，这导致了许多问题，如忽略关键字和词序，并且误解用户意图。通过重新为现有图像制作详细的、描述性的字幕来解决这些问题。该方法首先训练一个图像字幕生成器，即视觉语言模型，以生成精确和描述性的图像字幕。然后，通过这些由字幕生成器生成的描述性图像字幕对文本到图像模型进行微调。具体来说，DALL·E 3遵循对比字幕生成器（CoCa），以共同训练一个图像字幕生成器与CLIP架构和语言模型目标。这个图像字幕生成器包括一个图像编码器，一个用于提取语言信息的单模文本编码器，和一个多模文本解码器。它首先在单模图像和文本嵌入之间使用对比损失，然后在多模解码器的输出上使用字幕损失。通过这一步，图像字幕生成器能够为图像生成详细的描述性字幕。文本到图像模型的训练数据集是由图像字幕生成器生成的重新字幕数据集和地面真实人类编写数据的混合，以确保模型捕获用户输入。这种图像字幕改进方法引入了一个潜在的问题：实际用户提示与训练数据中描述性图像描述之间的不匹配。DALL·E 3通过上采样来解决这个问题，即LLMs用于将短用户提示重新撰写成详细和冗长的说明。这样可以确保推理时模型接收到的文本输入与模型训练中的输入一致。

文本到视频

为了增强指令跟随的能力，Sora采用了类似的字幕改进方法。首先通过训练一个能够为视频生成详细描述的视频字幕生成器来实现此方法。然后，将此视频字幕生成器应用于训练数据中的所有视频，以生成高质量的（视频，描述性字幕）对，这些对用于微调Sora以提高其指令跟随能力。Sora 的技术报告没有透露视频字幕生成器是如何训练的细节。鉴于视频字幕生成器是一个视频到文本模型，有许多构建方法。一种直接的方法是利用 CoCa 架构进行视频字幕生成，通过将视频的多帧输入到图像编码器，即 VideoCoCa。VideoCoCa 在 CoCa 的基础上构建，并重新使用图像编码器预训练权重，并独立地应用于采样视频帧。结果帧令牌嵌入被展平并连接成视频表示的长序列。然后，这些展平的帧令牌由生成池和对比池处理，它们与对比损失和字幕损失一起进行联合训练。构建视频字幕生成器的其他替代方法包括 mPLUG-2、GIT、FrozenBiLM等。最后，为了确保用户提示与训练数据中的描述性字幕格式相一致，Sora 执行了额外的提示扩展步骤，其中 GPT-4V 用于将用户输入扩展到详细的描述性提示。

讨论

对于 Sora 来说，遵循指令的能力对于生成符合用户意图的复杂场景的一分钟长视频至关重要。根据 Sora 的技术报告，这种能力是通过开发一个能够生成长而详细的字幕的字幕生成器来获得的，然后用于训练模型。然而，收集用于训练这样一个字幕生成器的数据的过程是未知的，并且可能是耗时的，因为它可能需要视频的详细描述。此外，描述性视频字幕生成器可能会产生视频的重要细节幻觉。我们认为，如何改进视频字幕生成器值得进一步研究，并且对于增强文本到图像模型的指令跟随能力至关重要。

提示工程

提示工程是指设计和完善输入给人工智能系统的过程，特别是在生成模型的背景下，以实现特定或优化的输出。提示工程的艺术和科学涉及以引导模型产生最准确、相关和连贯的响应的方式来制作这些输入。

文本提示

文本提示工程对于指导文本到视频模型（例如 Sora）生成视觉上引人注目的视频并精确满足用户要求至关重要。这涉及制作详细描述来指导模型有效地弥合人类创造力与人工智能执行能力之间的差距。Sora 的提示涵盖了各种情境。最近的研究（例如 VoP、Make-A-Video 和 Tune-A-Video）展示了提示工程如何利用模型的自然语言理解能力来解码复杂的指令，并将其渲染成连贯、生动和高质量的视频叙事。如图 15 所示，"一位时尚的女性走在霓虹灯闪烁的东京街道上......"就是这样一个精心制作的文本提示，它确保 Sora 生成与预期视觉相符的视频。提示工程的质量取决于单词的精心选择、提供细节的具体性以及对其对模型输出的影响的理解。例如，图 15 中的提示详细说明了场景的动作、设置、人物外貌，甚至是所需的心情和氛围。

图像提示

图像提示作为待生成视频内容的视觉锚点，还包括角色、设置和情绪等其他元素。此外，文本提示可以指示模型通过添加运动、互动和叙事发展的层次来使这些元素动画化，从而使静态图像栩栩如生。使用图像提示允许 Sora 利用视觉和文本信息将静态图像转换为动态、叙事驱动的视频。在图 16 中，我们展示了"一只穿着贝雷帽和高领衫的柴犬"、"一个独特的怪物家庭"、"一个云形成"SORA"字样"和"冲浪者在历史性大厅内航行潮水浪涌"的 AI 生成视频。这些例子展示了通过向 Sora 提供由 DALL·E 生成的图像可以实现的效果。

视频提示

视频提示也可以用于视频生成。最近的研究（例如 Moonshot 和 Fast-Vid2Vid）表明，良好的视频提示需要具体和灵活。这确保了模型在特定目标上获得清晰的指导，例如特定对象和视觉主题的描绘，并且还允许最终输出中具有想象力的变化。例如，在视频扩展任务中，提示可以指定扩展的方向（时间向前或向后）以及扩展的上下文或主题。在图 17(a) 中，视频提示指示 Sora 将视频向时间的反方向延伸以探索原始起始点之前发生的事件。在通过视频提示进行视频到视频编辑时，如图 17(b) 所示，模型需要清楚地理解所需的转换，例如改变视频的风格、设置或氛围，或者改变细微的方面，如光线或心情。在图 17(c) 中，提示指示 Sora 在确保不同场景中的对象之间实现平滑过渡的同时连接视频。

讨论

提示工程使用户能够引导 AI 模型生成符合其意图的内容。例如，文本、图像和视频提示的结合使用使 Sora 能够创建不仅在视觉上引人注目，而且与用户的期望和意图相契合的内容。虽然先前关于提示工程的研究集中在 LLMs 和 LVMs 的文本和图像提示上，但我们预计视频生成模型的视频提示将引起越来越多的关注。

可信度

随着诸如 ChatGPT、GPT4-V 和 Sora 等复杂模型的快速发展，这些模型的能力得到了显著增强。这些发展对提高工作效率和推动技术进步做出了重要贡献。然而，这些进步也引发了人们对这些技术潜在滥用的担忧，包括虚假新闻的生成、隐私侵犯和道德困境。因此，大型模型的可信度问题引起了学术界和工业界的广泛关注，成为当代研究讨论的焦点之一。

安全性问题

一个主要关注的领域是模型的安全性，特别是其抵御滥用和所谓的"越狱"攻击的韧性，用户试图利用漏洞生成被禁止或有害内容的情况。例如，引入了一种基于梯度技术的新颖且可解释的对抗攻击方法 AutoDAN ，以实现系统绕过。在一项最近的研究中，研究人员探讨了语言模型为什么难以抵御越狱攻击的两个原因：竞争性目标和不匹配的泛化。除了文本攻击，视觉越狱也威胁到多模型模型的安全性（例如，GPT-4V和 Sora）。一项最近的研究发现，大型多模型模型更易受攻击，因为额外的视觉输入的连续和高维特性使其更脆弱，容易受到对抗性攻击，代表了一个扩展的攻击面。

其他利用

由于大型基础模型的训练数据集的规模和训练方法（例如，ChatGPT和 Sora），这些模型的真实性需要加强，因为相关问题如幻觉已经广泛讨论。在这种情况下，幻觉指的是模型倾向于生成看似令人信服但毫无根据或错误的响应。这种现象引发了关于模型输出的可靠性和可信度的关键问题，需要综合方法来评估和解决这个问题。已经有大量研究致力于从各个角度剖析幻觉问题。这包括旨在评估不同模型和场景中幻觉程度和性质的努力。这些评估为理解幻觉发生的方式和原因提供了宝贵的见解，为开发减少其发生的策略奠定了基础。与此同时，大量研究致力于设计和实施方法，以减少这些大型模型中的幻觉。

可信度的另一个重要方面是公平性和偏见。开发不会持续或加剧社会偏见的模型的重要性是一个重要关注点。这一重点来自于认识到这些模型中编码的偏见可能会强化现有的社会不公平，导致歧视性结果。该领域的研究，正如 Gallegos 等人、Zhang 等人、Liang 等人和 Friedrich 等人的工作所证实的那样，致力于对这些固有偏见进行仔细辨别和纠正。目标是培养公平运作的模型，对待所有个体时都不带有种族、性别或其他敏感属性的偏见。这不仅涉及在数据集中检测和减轻偏见，还包括设计能够积极抵制这些偏见传播的算法。

隐私保护是这些模型部署时的另一个基本支柱。在数据隐私关切日益加剧的时代，保护用户数据的重视程度从未如此关键。对于大型模型的严格评估日益引起公众的关注和担忧，这些评估侧重于模型保护用户数据的能力，确保个人信息保持机密，不会被无意间披露。Mireshghallah 等人、Plant 等人和 Li 等人的研究展示了推动隐私保护方法和技术的努力。

对齐

在应对这些挑战时，确保大型模型的可信度已成为研究人员的主要关注点之一。其中最重要的技术之一是模型对齐，指的是确保模型的行为和输出与人类设计者的意图和道德标准一致的过程和目标。这涉及到技术的发展、其道德责任和社会价值。在大型语言模型领域，利用人类反馈的强化学习方法（RLHF）已被广泛应用于模型对齐。该方法将强化学习（RL）与直接人类反馈结合，使模型能够更好地与人类的期望和标准一致地理解和执行任务。

讨论

从 Sora（特别是其技术报告）中，我们总结了一些有见地的发现，这些发现可能为未来的工作提供了信息性的指导：

（1）模型与外部安全的综合保护：随着模型变得更加强大，特别是在生成内容方面，确保它们不被滥用以生成有害内容（例如仇恨言论和虚假信息）已成为一个严重的挑战。除了调整模型本身外，外部安全保护同样重要。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护，以及透明度和可解释性的增强。例如，OpenAI 现在使用检测分类器来判断给定视频是否由 Sora 生成。此外，还部署了文本分类器来检测潜在有害的文本输入。

（2）多模型模型的安全挑战：多模型模型，如文本到视频模型（如 Sora），由于其理解和生成各种类型内容的能力（文本、图像、视频等），给安全带来了额外的复杂性。多模型模型可以以各种形式生成内容，增加了滥用和版权问题的方式和范围。由于多模型模型生成的内容更加复杂和多样化，传统的内容验证和真实性方法可能不再有效。这需要开发新的技术和方法来识别和过滤这些模型生成的有害内容，增加了规范和管理的难度。

（3）跨学科合作的需求：确保模型的安全性不仅是一个技术问题，还需要跨学科合作。为了解决这些挑战，需要来自法律和心理学等各个领域的专家共同合作，制定适当的规范（例如，什么是安全的，什么是不安全的？）、政策和技术解决方案。跨学科合作的需求显著增加了解决这些问题的复杂性。

应用

随着以Sora为代表的视频扩散模型成为前沿技术，它们在各个研究领域和行业中的应用正在迅速加速。这项技术的影响远远超出了仅仅视频创作，为从自动化内容生成到复杂决策过程等任务提供了变革性潜力。在本节中，我们深入全面地审视了视频扩散模型的当前应用，突出了Sora不仅展示了其能力，而且彻底改变了解决复杂问题的方法。我们旨在为实际部署场景提供广泛的视角（见图18）。

电影

传统上，创作影视杰作是一个艰难且昂贵的过程，通常需要数十年的努力、尖端设备和大量的财政投资。然而，先进的视频生成技术的出现预示着电影制作的新时代，其中一个梦想是从简单的文本输入自动产生电影正在成为现实。研究人员通过将视频生成模型扩展到电影生成的领域，涉足了电影生成的领域。MovieFactory应用扩散模型生成电影风格的视频，这些视频由Chat-GPT生成的详细脚本产生，代表了一个重大飞跃。随后，MobileVidFactory可以根据用户提供的简单文本自动生成垂直移动视频。Vlogger使用户能够撰写一分钟长的视频日志。这些发展，以Sora轻松生成引人入胜的电影内容的能力为代表，标志着电影制作民主化的一个关键时刻。它们展示了一个未来的景象，那里任何人都可以成为电影制片人，显著降低了进入电影行业的门槛，并在电影制作中引入了一个新颖的维度，将传统叙事与人工智能驱动的创造力融合在一起。这些技术的影响超出了简化。它们承诺重塑电影制作的格局，在不断变化的观众偏好和分发渠道面前，使其更加可访问和多样化。

教育

长期以来，教育内容的景观一直被静态资源所主导，尽管它们具有价值，但往往无法满足当今学生多样化的需求和学习风格。视频扩散模型站在教育革命的前沿，提供了前所未有的机会，以一种显著增强学习者参与度和理解能力的方式定制和激活教育材料。这些先进技术使教育工作者能够将文本描述或课程大纲转化为动态、引人入胜的视频内容，以适应个体学习者的特定风格和兴趣。此外，图像到视频编辑技术提供了将静态教育资产转化为互动视频的创新途径，从而支持一系列学习偏好，并潜在地增加学生参与度。通过将这些模型整合到教育内容创作中，教育工作者可以在许多主题上制作视频，使复杂概念对学生更加易于理解和引人入胜。Sora在革新教育领域方面的应用体现了这些技术的变革潜力。这种向个性化、动态教育内容的转变标志着教育的新时代。

游戏

游戏行业不断寻求推动现实感和沉浸感的界限，然而，传统的游戏开发往往受制于预先渲染的环境和脚本化事件的限制。扩散模型实时生成动态、高保真视频内容和逼真音效的能力，承诺克服现有的限制，为开发者提供工具，创造对玩家行动和游戏事件有机响应的不断演变的游戏环境。这可能包括生成变化的天气条件、改变地貌，甚至实时创建全新的环境，使游戏世界更加沉浸和响应。一些方法还从视频输入中合成逼真的撞击声音，增强游戏音频体验。通过将Sora整合到游戏领域，可以创造出引人入胜、吸引玩家的无与伦比的沉浸式体验。游戏的开发、玩法和体验将得到革新，同时为叙事、互动和沉浸体验开辟新的可能性。

医疗保健

尽管具有生成能力，视频扩散模型擅长理解和生成复杂的视频序列，使其特别适用于识别体内的动态异常，例如早期细胞凋亡、皮肤病变进展和不规则的人体运动，这对于早期疾病的检测和干预策略至关重要。此外，像MedSegDiff-V2和这样的模型利用Transformer的力量以前所未有的精度对医学图像进行分割，使临床医生能够在各种成像模式下精确地找出感兴趣的区域。将Sora整合到临床实践中，不仅可以改进诊断过程，而且可以个性化患者护理，根据精确的医学成像分析提供定制的治疗方案。然而，这种技术整合也带来了一系列挑战，包括对健壮数据隐私措施的需求和解决医疗伦理问题。

机器人技术

视频扩散模型现在在机器人技术中扮演着重要角色，展示了一个新时代，在这个时代，机器人可以生成和解释复杂的视频序列，以增强感知和决策制定。这些模型为机器人解锁了新的能力，使它们能够与环境交互，并以前所未有的复杂性和精度执行任务。将网络规模的扩散模型应用到机器人技术展示了利用大规模模型增强机器人视觉和理解能力的潜力。潜在的扩散模型被用于语言指导的视频预测，使机器人能够通过预测视频格式中的动作结果来理解和执行任务。此外，视频扩散模型创新地解决了机器人研究中对模拟环境的依赖，这些模型能够创建高度逼真的视频序列。这使得为机器人生成多样化的训练场景成为可能，缓解了真实世界数据稀缺性所带来的限制。我们相信，将Sora等技术整合到机器人领域，将带来突破性的发展。通过利用Sora的力量，机器人的未来将迎来前所未有的进步，使机器人能够无缝地在环境中导航和交互。

讨论

Sora显示出了从人类精确理解和实施复杂指令方面的卓越才能。这个模型擅长创作具有各种角色的详细视频，这些角色都设置在精心制作的场景中。Sora的一个特别令人印象深刻的特点是，它能够在保持一致而引人入胜的叙述的同时制作长达一分钟的视频。这标志着与之前专注于较短视频片段的尝试相比，Sora的延长序列展示了清晰的叙述流程，并从头到尾保持了视觉一致性。此外，Sora通过生成更长的视频序列来区别于先前模型，这些视频序列捕捉了复杂的动作和交互，推动了AI驱动的创造工具的重大进步，使用户能够将书面故事转化为细节丰富、复杂的视频，而这在以前是不可能实现的。

限制

物理真实性的挑战。作为一个模拟平台，Sora展示了一系列限制，这些限制削弱了其准确描绘复杂场景的效果。最重要的是，它在复杂场景中对物理原理的处理不一致，导致未能准确复制特定的因果示例。例如，吃掉一部分饼干可能不会导致相应的咬痕，这说明了系统偶尔脱离物理可信度。这个问题延伸到运动的模拟，Sora生成的运动挑战现实的物理建模，比如物体的不自然变形或椅子等刚性结构的错误模拟，导致不真实的物理交互。在模拟物体和角色之间的复杂交互时，挑战进一步加剧，有时产生的结果偏向于幽默。

空间和时间复杂性。Sora偶尔会误解与给定提示中的对象和角色的放置或排列相关的指令，导致对方向的混淆（例如，将左右混淆）。此外，在保持事件的时间准确性方面存在挑战，特别是在遵循指定的相机运动或序列时。这可能导致偏离场景的预期时间流。在涉及大量角色或元素的复杂情况下，Sora有时会插入不相关的动物或人物。这种添加可能会显著改变最初设想的构图和氛围，偏离了计划的叙述或视觉布局。这个问题不仅影响了模型准确重现特定场景或叙述的能力，还影响了其在生成内容方面与用户期望和生成输出的连贯性一致性。

人机交互的限制。尽管Sora在视频生成领域显示出潜力，但在人机交互方面面临着重大限制。这些限制主要体现在用户系统交互的一致性和效率上，尤其是在对生成内容进行详细修改或优化时。例如，用户可能会发现难以精确指定或调整视频中特定元素的呈现方式，比如动作细节和场景过渡。此外，Sora在理解复杂语言指令或捕捉微妙语义差异方面的限制可能导致视频内容未能完全满足用户的期望或需求。这些缺点限制了Sora在视频编辑和增强方面的潜力，也影响了用户体验的整体满意度。

使用限制。关于使用限制，OpenAI尚未为公众访问Sora设定具体的发布日期，强调在广泛部署之前需要谨慎处理安全性和准备性。这表明，Sora在安全、隐私保护和内容审查等领域可能仍需要进一步改进和测试。此外，目前，Sora只能生成长达一分钟的视频，根据已发布的案例，大多数生成的视频只有几十秒长。这一限制限制了其在需要更长内容展示的应用中的使用，如详细的教学视频或深入的叙事。这一限制降低了Sora在内容创作中的灵活性。

机遇

学术。(1) OpenAI引入Sora标志着AI社区更深入地探索文本到视频模型的转变，利用扩散和Transformer技术。这一举措旨在重新引导关注，将重点转向直接从文本描述创建高度复杂和微妙的视频内容的潜力，这是一片有望革新内容创作、叙事和信息共享的前沿。(2) 将Sora训练在原始大小的数据上的创新方法，与传统的调整或裁剪方法相比，为学术界提供了突破性的灵感。它通过突出利用未经修改的数据集的好处，为创建更先进的生成模型打开了新的途径。

行业。(1) Sora目前的能力标志着视频模拟技术进步的一个有希望的路径，突出了在物理和数字领域内显著增强逼真性的潜力。Sora通过文本描述使得创造高度逼真环境成为可能，这为内容创作开辟了一个充满希望的未来。这一潜力延伸到了革新游戏开发，展示了一个未来的景象，即可以以前所未有的轻松和准确度打造沉浸式的虚拟世界。(2) 公司可以利用Sora制作能够迅速适应市场变化并创建定制营销内容的广告视频。这不仅降低了生产成本，还增强了广告的吸引力和有效性。Sora仅凭文本描述就能生成高度逼真的视频内容的能力，可能会彻底改变品牌与受众互动的方式，使其能够以前所未有的方式创造沉浸式和引人入胜的视频，捕捉产品或服务的本质。

社会。(1) 虽然利用文本到视频技术替代传统电影制作的前景仍然遥远，但Sora和类似的平台对社交媒体内容创作具有变革性的潜力。目前视频长度的限制并不减弱这些工具在使高质量视频制作对每个人都可及的方面所能发挥的影响，使个人能够在不需要昂贵设备的情况下制作引人入胜的内容。这代表了对TikTok和Reels等平台上内容创作者的重大转变，带来了一个新的创造力和参与度的时代。(2) 编剧和创意专业人员可以利用Sora将书面剧本转化为视频，帮助他们更好地展示和分享他们的创意概念，甚至制作短片和动画片。从剧本中创作详细、生动的视频可以从根本上改变电影和动画制作的前期制作过程，让未来的叙事者可以在其中进行创作、发展和完善他们的叙事构思。这项技术为更动态、更互动的剧本开发形式开辟了可能性，其中的想法可以实时可视化和评估，为创造力和协作提供了强大的工具。(3) 记者和新闻机构也可以利用Sora快速生成新闻报道或解释性视频，使新闻内容更加生动和引人入胜。这可以显著增加新闻报道的报道范围和受众参与度。通过提供一个可以模拟真实环境和场景的工具，Sora为视觉叙事提供了强大的解决方案，使记者能够通过引人入胜的视频来传达复杂的故事，这些故事以前很难或昂贵地制作。总的来说，Sora 在营销、新闻和娱乐领域彻底改革内容创作的潜力是巨大的。

结论

这篇综述提供了对 Sora 的全面评估，以帮助开发者和研究人员研究 Sora 的能力和相关工作。该评估基于对已发表的技术报告的调查和基于现有文献的逆向工程。当 Sora 的 API 可用并且有关 Sora 的进一步细节被揭示时，作者将继续更新本文。作者希望本综述论文能成为开源研究社区的宝贵资源，并为社区共同在不久的将来开发一个开源版本的 Sora 打下基础，以在 AIGC 时代使视频自动生成民主化。为了实现这一目标，作者邀请各方进行讨论、提出建议，并展开合作。

sora transformer 扩散模型视频生成生成器字幕生成字幕生成器 llm 文本到视频 llms 一致性 lms gpt 文本提示机器人上下文人工智能文本到图像 ide 预训练