AIGC专题：Sora是如何成功的？

今天分享的是AIGC专题系列深度研究报告：《AIGC专题：Sora是如何成功的？》。

（报告出品方：中泰证券）

报告共计：15页

来源：人工智能学派

Sora：大规模训练的视频生成模型，支持60s 1080p视频生成

◼ 2024年2月15日，OpenAI推出了视频生成模型Sora。Sora进行了大规模的训练，并使用了不同尺寸、分辨率和时长的视频进行训练，并沿用了扩散模型（Diffusion Model）的思路在Transformer架构上进行训练。

◼ Sora能够生成长达60s的1080p清晰度视频。OpenAI认为，构建Sora这样的缩放视频生成模型（Scaling Video Generation Model）是构建物理世界通用模拟器的可行方法。

◼ 目前Sora内测开放给OpenAI的红队成员，正在对其危害或风险进行评估。

能够理解和生成复杂场景，但对客观物理规律理解不足

◼ Sora能够生成具有多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。它不仅理解用户在提示中提出的要求，还理解这些事物在现实世界中的存在方式。

◼ 目前Sora的不足在于难以模拟现实世界中的物理规律，且对于事物发生的因果、时序和空间关系理解不足。例如模型能够生成一个人咬一口饼干，但饼干可能没有咬痕；模型可能在某些视频中混淆左右；而且可能难以精确描述随着时间推移而发生的事件，例如跟踪特定的相机轨迹等。

支持多模态结合输入，可编辑、延伸或生成自定义尺寸视频

◼ Sora支持图片和视频的多模态输入，以及多模态的混合输入。除能够根据用户的文本输入生成视频之外，还能够基于 DALL·E 2和DALL·E 3生成的图片再进行视频生成。通过输入原视频和文本提示，Sora能够对目标视频风格进行编辑。 Sora还可以在输入的多个视频之间生成转场镜头，将不同视频丝滑地连接起来。

◼ Sora同样支持（时序）向前或向后延续生成视频，以及可直接以原始尺寸为不同设备生成视频。它还允许用户先以较低的分辨率快速生成内容，再提升分辨率，以提高生成效率。除此之外Sora还能直接生成高达2048*2048分辨率的图片。

结合GPT、DALL·E的能力与方法，语言理解能力强

◼ 基于强大的GPT和DALL·E模型，Sora在训练过程中完成了文本和视频模态的“对齐”，从而能够理解提示中的词汇含义，并能够将其对应到生成视频中的事物上，大大提升了生成视频的准确性。Sora采用的推理方法与DALL·E 3类似，同样是利用GPT将简短的用户提示转化为更详细的描述，并将其发送给视频模型，用以提高视频生成质量。同时Sora的训练思想也与DALL·E 3类似，也是通过训练文本生成器caption重述文本，再使用生成的文本和视频对模型进行训练。

◼ 我们认为，OpenAI采用的合成数据方式在大幅提升模型效果的同时，相似风格的文本prompt也能够提升Sora与GPT、 DALL·E的联动效果，使得Sora更接近一个“全能”的多模态模型。

报告共计：15页

来源：人工智能学派