今天分享的是电子系列深度研究报告:《AIGC专题:Sora开启AIGC新纪元,海外龙头AI指引乐观》。
(报告出品方:方正证券)
报告共计:30页
来源:人工智能学派
Sora、Gemini 1.5 Pro 相继发布,AIGC 新时代已至
大模型 Sora震摅登场,Al 生成视频领域里程碑
0penAl在 2024年2月16日发布文生视频模型 Sora,突破了 AIGC 的高地,该模型完美继承 DALL·E3的画质和遵循指令能力,并利用了GPT扩写,具备超长生成时间(60s,Pika 1.0为3s)、单视频多角度镜头、理解物理世界三大突出优势。除文生视频外,该模型还能支持通过现有的静态图像生成视频,并能准确、细致地对图像内容进行动画处理:提取现有视频,对其进行扩展或填充缺失的帧。
优势 1#超长生成时间。Sora 支持 60s 视频生成,一镜到底,不仅主人物稳定背景中的人物表现也十分稳定,可实现从大中景无缝切换到脸部特写。相比之下Pika 1.0的视频生成时间为 3s(可通过 Add 4s 功能增加 4s),Sora 支持时长远超目前市场上已有的文生视频模型。
优势 2#单视频多角度镜头。Sora 生成的视频中,在有多角度镜头的情况下仍然 能保证一致性,即使主体暂时离开视野也可保持不变。OpenAI 展示了如下提示词 的生成的视频:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直 到它找到狼群,该视频实现了多镜头无缝切换且保持了主体的一致。
优势 3#理解物理世界。目前 Sora 已经能生成具有多个角色、包含特定运动的复 杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的 存在方式。我们看到 Sora 生成的视频与世界互动,例如,画家可以在画布上留 下新的笔触,并随着时间的推移而持续存在,一个人可以吃汉堡并留下咬痕。在 汽车在山路上行驶的视频中,其汽车的阴影、树影等随镜头变化带来的光影变换 也符合物理世界。我们认为 Sora 已具备理解物理世界的能力。
Sora 不仅能通过文字来生成视频,还支持图片生成视频、扩展生成的视频、视频编辑以及视频连接。
1)图片生成视频:Sora 能够生成提供图像和提示作为输入的视频;
2)扩展生成的视频:Sora 还能够在时间上向前或向后扩展视频,虽然视频的结局都是相同的,但起始视频并不相同;
3)视频编辑:扩散模型启用了多种根据文本提示编辑图像和视频的方法,使 Sora 能够零镜头地改变输入视频的风格和环境;
4)视频连接:Sora 可以在两个输入视频之间逐帧进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
我们认为 Sora 震撼效果的原因主要有:
1)训练端:基于 Transformer 架构的扩 散模型,降维并通过 Patche 进行训练;采样的灵活性与独特的训练路径(原始尺寸、时长训练);利用 DALL·E 3 re-captioning 功能,给训练用的视频素材 都加上高质量文本描述;
2)输入端:利用 GPT 先将用户输入的提示词精准详尽 扩写,再将扩写后的提示词交给 Sora。
基于 Transformer 架构的扩散模型,降维并通过 Patche 进行训练。Sora是一种扩散模型,可在学习大量先作的时候,学会图像内涵与图像之间的关系,采用Transformer 架构(主流视频生成扩散模型较多采用 U-Net 架构),0penAl 认为之前在大语言模型上的成功得益于 Token,Token 可以把代码、数学以及各种不同的自然语言进行统一,进而方便规模巨大的训练,因此 0penAl 创造了对应Token 的 Patche,用于训练 Sora。为减少Transformer 带来的计算量压力,0penAl开发了一个视频压缩网络,把视频先降维到潜空间(latent,用更少的信息去表达信息的本质),然后再去拿这些压缩过的视频数据去生成 Patche,这样就能使输入的信息变少。
训练中具有采样的灵活性,并通过原始尺寸、时长训练。Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频,这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。与业内常用的把视频截取成 预设标准尺寸、时长后再训练的路径不同,OpenAI 选择了原始尺寸、时长训练, 这使得 Sora 生成的视频能更好地自定义时长、更好地自定义视频尺寸、视频会 有更好的取景和构图。
报告共计:30页
来源:人工智能学派