当前位置:AIGC资讯 > AIGC > 正文

AIGC专题:Sora是如何成功的?

今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora是如何成功的?》。

(报告出品方:中泰证券)

报告共计:15页

来源:人工智能学派

Sora:大规模训练的视频生成模型,支持60s 1080p视频生成

◼ 2024年2月15日,OpenAI推出了视频生成模型Sora。Sora进行了大规模的训练,并使用了不同尺寸、分辨率和时长 的视频进行训练,并沿用了扩散模型(Diffusion Model)的思路在Transformer架构上进行训练。

◼ Sora能够生成长达60s的1080p清晰度视频。OpenAI认为,构建Sora这样的缩放视频生成模型(Scaling Video Generation Model)是构建物理世界通用模拟器的可行方法。

◼ 目前Sora内测开放给OpenAI的红队成员,正在对其危害或风险进行评估。

能够理解和生成复杂场景,但对客观物理规律理解不足

◼ Sora能够生成具有多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。它不仅理解用户在提示中提出的 要求,还理解这些事物在现实世界中的存在方式。

◼ 目前Sora的不足在于难以模拟现实世界中的物理规律,且对于事物发生的因果、时序和空间关系理解不足。例如模型能 够生成一个人咬一口饼干,但饼干可能没有咬痕;模型可能在某些视频中混淆左右;而且可能难以精确描述随着时间推 移而发生的事件,例如跟踪特定的相机轨迹等。

支持多模态结合输入,可编辑、延伸或生成自定义尺寸视频

◼ Sora支持图片和视频的多模态输入,以及多模态的混合输入。除能够根据用户的文本输入生成视频之外,还能够基于 DALL·E 2和DALL·E 3生成的图片再进行视频生成。通过输入原视频和文本提示,Sora能够对目标视频风格进行编辑。 Sora还可以在输入的多个视频之间生成转场镜头,将不同视频丝滑地连接起来。

◼ Sora同样支持(时序)向前或向后延续生成视频,以及可直接以原始尺寸为不同设备生成视频。它还允许用户先以较低 的分辨率快速生成内容,再提升分辨率,以提高生成效率。除此之外Sora还能直接生成高达2048*2048分辨率的图片。

结合GPT、DALL·E的能力与方法,语言理解能力强

◼ 基于强大的GPT和DALL·E模型,Sora在训练过程中完成了文本和视频模态的“对齐”,从而能够理解提示中的词汇 含义,并能够将其对应到生成视频中的事物上,大大提升了生成视频的准确性。Sora采用的推理方法与DALL·E 3类似, 同样是利用GPT将简短的用户提示转化为更详细的描述,并将其发送给视频模型,用以提高视频生成质量。同时Sora的 训练思想也与DALL·E 3类似,也是通过训练文本生成器caption重述文本,再使用生成的文本和视频对模型进行训练。

◼ 我们认为,OpenAI采用的合成数据方式在大幅提升模型效果的同时,相似风格的文本prompt也能够提升Sora与GPT、 DALL·E的联动效果,使得Sora更接近一个“全能”的多模态模型。

报告共计:15页

来源:人工智能学派

更新时间 2024-03-08