今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Sora实现文生视频跨越式突破,AIGC持续正反馈》。
(报告出品方:国联证券)
报告共计:16页
来源:人工智能学派
Sora 模型实现众多突破
2 月 16 日,OpenAI 发布了文生视频大模型 Sora,可根据简短提示词,生成长达 60s 高清短视频,将此前行业视频生成长度大幅提升。该模型拥有文本到视频,长时 生成能力;复杂场景和角色生成能力;语言理解能力;多镜头生成能力;物理世界模 拟能力等。Sora 的诞生预示着用户可以省去繁琐冗杂的制作过程,将自我想象力转 换为视频作品,有望提升短视频创作效率,加速短视频平台发展。
➢ 文本到视频,长时生成能力
Sora 能够根据用户提供的文本描述生成长达 60s 的视频,这些视频不仅保持了 视觉品质,而且完整准确还原了用户的提示语。
➢ 复杂场景和角色生成能力
Sora 可以生成具有多个角色、特定的运动类型以及细节精准的主题与背景所构 建的复杂场景。通过对生动角色以及复杂运镜的应用,视频具有高度真实性和叙事效果。我们认为对于短视频创作行业,制作者可以快速将创意进行视频化,并带来逼真 的视觉效果。
➢ 深刻语言理解能力
Sora 对语言拥有深刻理解能力,可以准确解释提示并生成可以表达丰富情感、 引人注目的角色。我们认为 Sora 对语言的理解能力可以准确的反应用户的指令,从 而创作出更加优质的作品。
➢ 多镜头生成能力
Sora 可以在单个生成的视频中创建多个镜头,同时可保持角色与视觉风格的一 致性。多镜头生成功能对于影视制作及其他多视角展示作品可起到极大辅助作用。
➢ 物理世界模拟能力
Sora 不仅可以理解用户在提示中输出的指令,还可以理解所生成的事物在物理 世界存在与运行的方式,从而展现了人工智能在理解现实世界并与之互动的能力。 Sora 可以模拟真实物理世界的运动,例如物体的移动、习性以及相互作用。
➢ 模型存在一定限制,仍可逐步提升
Sora 的诞生代表着 AI 行业在视频生成领域产生较大突破,但其仍存在一定弱 点需逐步改善。Sora 可能难以准确模拟在某些复杂场景中物体的物理特性,并且可 能无法理解某些特定的场景物体的因果关系。例如,一个人咬一口饼干,但饼干可能 没有咬痕。该模型或可能混淆用户生成指令的空间细节,例如,左右混淆,或可能难 以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。
Sora 采用了扩散模型结合 transformer
过去的研究中,许多团队聚焦于使用递归网络、生成对抗网络、自回归 Transformer 和扩散模型等各种方法,对大模型进行学习。这些工作局限于较小类别 视觉数据、较短或固定大小的视频上。Sora 作为通用视觉模型,可以生成不同时长、 纵横比和分辨率的视频和图像,最多可达一分钟的高清视频。
➢ 将可视数据转换成数据包(patchs)
大语言模型通过 token 将各种形式的文本代码、数学和自然语言统一起来, OpenAI 从中获得灵感,Sora 通过视觉包(patchs)实现了类似的效果。对于不同类 型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重 要意义。
➢ 时空包
当给定一个压缩后的输入视频时,OpenAI 会从中提取出一系列的时空包,这些 包被用作转换 token。这一方案不仅适用于视频,也适用于图片,因为视频由连续帧 构成的,所以图像可以视为单帧的视频。通过这种时空包的表示方式,Sora 可以对 不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,OpenAI 可以 在适当大小的网格中排列随机初始化的时空包,从而控制生成视频的大小。
➢ 用于视频生成的缩放
Transformers Sora 是一个扩散模型,可输入噪声包(以及如文本提示等条件性输入信息),被 训练去预测原始的“干净”包。Sora 是一个基于扩散的转换器模型,这种模型已经 在语言建模、计算机视觉以及图像生成等领域,展现了显著的扩展性。
报告共计:16页
来源:人工智能学派