当前位置:AIGC资讯 > AIGC > 正文

不公开!不会音视频一锅出!Sora团队最新采访透露了一个训练细节

撰文&编译  |  伊风

出品 | 51CTO技术栈(微信号:blog51cto)

AI视频生成模型仍然热闹不断!

上一周,Pika支持音效同步生成功能,终于实现了音频、视频“一锅出”;看国内,阿里在推出令人惊艳的EMO框架后,再发图像转视频模型AtomoVideo,一张海报就能生成吸睛的时尚大片。

Sora团队的最新采访中,团队领导者Bill Peebles、Aditya Ramesh和Tim Brooks做客科技博客WVFRM Podcast,分享了他们对Sora获得全球关注的感受并透露了正在努力的方向。

在采访中,他们也被问到Sora是否会跟进音效生成功能,团队负责人委婉表示,一锅出是很好——但我们先专注做好视频再说吧!

划重点:

  • Sora训练的一个创新之处是使用了多样化的视频数据,这使得Sora能够灵活生成不同尺寸和分辨率的视频。
  • 尽管Sora在视频逼真度上取得突破,但在处理复杂物理现象和细节上仍有待提高。
  • Sora团队把提高用户对视频生成细节的控制能力作为未来努力的方向,以探索AI视频生成技术的新突破。
  • 面对AI视频生成可能带来的社会挑战,Sora团队正在探索如何通过技术手段(如来源分类器)来帮助识别AI生成的视频,并且计划在短期内不向公众开放使用。

图片

以下为Sora团队在WVFRM Podcast的对话整理:

WVFRM Podcast:我看了Sora的技术报告,还有你们提供的示例视频,留下了非常深刻的印象。你能否非常简洁地解释,Sora究竟是如何工作的吗?

Sora:概括性地说,Sora是一个生成模型。过去几年里,涌现了许多非常酷的生成模型,从GPT这样的语言模型到DALL·E这样的图像生成模型。Sora是一个视频生成模型,它通过查看大量视频数据并学习以完全相同的方式生成逼真的视频。

它实际上结合了像DALL·E这样的基于扩散模型的技术,以及像GPT这样的语言模型技术。它在训练上类似于DALL·E,但在架构上更像GPT。但从高层次上讲,它只是被训练来生成现实世界和数字世界的视频,以及各种内容。

WVFRM Podcast:就像生成模型一样,Sora基于训练数据可以创造非常多的东西。Sora是用什么训练的?

Sora:我们不能透露太多细节,但它是基于公开可用的数据以及OpenAI授权数据进行组合训练的。我们在创建Sora时的一个创新是使其训练不同时长、不同宽高比和分辨率的视频。这真的很新颖。

以前在训练图像或视频生成模型时,人们通常会在非常固定的(素材)尺寸上训练,例如只有一个分辨率。但我们做的是,我们接受各种宽高比、高分辨率、低分辨率的图像和视频,并将它们都变成小块,我们称之为补丁,然后我们能够根据输入的大小训练不同数量的补丁的视频。这使我们的模型能够非常灵活地训练更多样化的数据,并且能够用于生成不同分辨率和大小的内容。

WVFRM Podcast:你们对Sora的使用、构建和优化已经有一段时间了,显然视频中有很多反应,比如我制作视频,我知道有光线反射、各种物理现象和物体移动等。你们发现Sora在当前状态下擅长什么,或者有哪些特定的弱点,比如我稍后会展示的视频(下图),其中一只手上有六个手指。

图片

Sora:Sora在(生成视频的)逼真度方面确实取得了很大的进步,(并且)视频可以非常长,长达一分钟,这确实是从以前的生成视频工具中迈出的一大步。

但它仍然在一些方面存在困难,比如你提到的手部,以及一些物理方面。例如,在prompt里要求生成一个3D打印机,你可以看到它并没有完全做对。

图片

WVFRM Podcast:Sora做得好的地方真的很有趣,就像你说的那样,(Sora生成的视频)有很好的逼真度,光线和反射,甚至是特写和纹理。

不过,这些视频中没有声音,我非常好奇,添加声音到这些视频中是否比想象的更复杂,你觉得离能够同步生成声音的AI视频还有多远?

Sora:很难给出这类事情的确切的时间线。对于Sora,我们真的很专注于推动视频生成模型的能力向前发展。在此之前,很多AI生成的视频只有四秒钟,帧率相当低,质量也不好。

所以目前为止,我们的大部分努力都在(视频生成能力)这里。我们同意,添加音频内容会使视频更具沉浸感。所以,这是我们肯定在考虑的事情。但现在Sora主要是一个视频生成模型,我们专注于推动这一领域内的能力。

WVFRM Podcast:DALL·E随着时间的推移已经改进了很多,它在很多方面的表现都提高了。你们也一直在不断地努力使Sora变得更好。

Sora需要达到什么样的标准,(才会让)你们觉得它已经足够好,可以向用户公开使用了?我们期待有一个MIC drop(编者注:指把话筒故意脱手掉到地上以示演出结束)时刻,(在这之后)你们如何确定继续努力的方向,让Sora变得更好?

Sora:我们以博客文章形式发布Sora的主要动机,就是获取反馈,以了解Sora对人们如何有用,以及需要进行哪些安全工作,这将真正(帮助)我们设定研究路线图。

但是它目前还不是一个(成熟的)产品。它还没有在ChatGPT或其他任何地方可用,我们甚至没有将其转化为产品的时间线,现在我们正处于获取反馈的阶段。

所以我们肯定会改进它,但我们应该如何改进它还是一个待解决的问题,我们想让世界看到这个即将到来的技术。我们听取人们的意见,Sora对用户来说有什么用?听取安全专家的意见,我们如何使Sora对世界(来说是)安全(的)?开始听取一些艺术家的意见,这在你们的工作流程中有什么用?这真的将设定我们优化Sora的工作。

WVFRM Podcast:那么你们接下来有什么计划?

Sora:我们确实收到了一些反馈,人们对于更进一步地控制(视频中的)细节非常感兴趣。所以这将是一个有趣的发展方向。目前,你可能只有一个相当简短的提示,但人们真的对(未来)生成的视频有更多控制感兴趣。

WVFRM Podcast:很有趣。我可以想象,例如想生成宽屏的(视频),或者垂直的(视频),或者(视频中的)光线充足,类似的东西,这样就不用担心提示工程(prompt engineering)。

你们已经研究生成视频模型很长时间了,在未来,是否可以生成一个与真实视频无法区分的AI视频?因为这就是DALL·E随着时间推移的进化方式——它可以制作出来一个非常逼真的图片。(AI生成的视频与真实视频没有差别)你认为这是实际上可能的事情吗?

Sora:我认为这最终是可能的。当然,随着我们接近这一点,我们希望更谨慎地公开这些能力,以便社交媒体上的人能知道一个视频基本上是真实的还是假的,以及(确认)他们看到的视频来自一个可信的来源。我们希望确保(AI视频生成)能力不会被用于可能持续传播误导信息的场景。

WVFRM Podcast:Sora生成的视频的右下角有一个水印,这显然非常重要,但这样的水印可以被裁剪。我很好奇,你们是否考虑过其他方法,可以轻松识别AI生成的视频,特别是像Sora这样(非常逼真)的工具?

Sora:是的,对于DALL·E-3,我们训练了来源分类器,可以判断一个图像是否由模型生成,或者给定的图像是否由模型生成。我们正在努力将这项技术适应到我们的视频模型中,这不会是一个完整的解决方案,但这是一个开始。

WVFRM Podcast:明白了,有点像元数据,或者像一种嵌入式的旗帜。如果你处理这个文件,你知道它是AI生成的。

Sora:我们训练的分类器可以运行在任何图像或视频上。它会告诉你,它是否认为这个内容由我们的模型生成。

WVFRM Podcast:我还很好奇,你对其他人对Sora的评价有什么感觉?有很多这样的反馈,“这太酷了”、“这太神奇了”、“我的天哪”、“我的工作不保了”,你如何看待这些反馈?

Sora:我觉得很多反馈都与“接下来会发生什么的”焦虑相关。我们确实感觉到了(这些情绪),就我们的使命而言,我们需要确保Sora以安全的方式部署,并且以负责任的态度对待所有与视频生成相关的事情。

但我也感觉到了很多机会,比如现在,有一个人想要制作电影,(但)很难获得足够的资金来真正制作这部电影。因为制作电影的预算非常大,制作公司必须意识到他们所做的投资所带来的风险。所以我认为AI一个很酷的使用方式是,它可能大幅降低了从想法到完成视频的成本。

WVFRM Podcast:Sora和DALL·E有很多相似的地方。当DALL·E变得非常好时,我开始使用它作为头脑风暴工具,可以用它制作视频的缩略图。我可以看到Sora同样有很多非常酷的用途。我知道你没有明确的时间线,但你提到你们目前处于测试阶段。你认为Sora会很快进入到开放使用的阶段吗?

Sora:我想不会。

WVFRM Podcast:好的,我的最后一个问题是关于未来的。当Sora能制作五分钟的YouTube视频,并能配合声音和完美的逼真度时,(AI)下一个应该涉足的媒介是什么?

AI生成已经从照片走向了视频这个全新的维度,视频有时间和物理(规律),以及所有新的变量,例如反应和声音。你们比我想象之中更快地跳入了这个领域。AI生成媒体内容的下一个领域可能是什么?

Sora:让我非常兴奋的是,AI工具的使用将如何进化并创造全新的内容,我认为这很大程度上将是我们从人们如何使用这些工具当中,获得新的启发。通常想到AI工具如何被用来创造已经存在的东西是简单的。虽然实际上,我认为AI将使我们能够创造全新的内容类型。但却很难(预先)知道那是什么,直到它落入最有创造力的人手中。

当这些有创造力的人拥有新工具时,他们会做出惊人的事情,他们会创造出以前不可能的新事物。这真的是我长期以来感到激动的事情,AI工具如何帮助人们创造完全新的媒体体验。

但我认为,这将是非常激动人心的,(而我们)只是允许真正有创造力的人通过制作全新的工具来推动创意的边界。

WVFRM Podcast:是的,因为我们知道Sora是基于现有内容进行训练的,所以它只能基于已经存在的东西来创造。你如何让Sora变得有创造力,我想象你必须在提示工程的学习曲线上(learning curves of prompt engineering)做文章,并发现应该怎样对Sora进行提示。这样说准确吗?

Sora:除了基于文本的提示之外,模型还具有其他一些很酷的能力。在我们与Sora一起发布的研究帖子中,我们展示了一个例子,是两个输入视频之间的混合。

那是一个非常酷的案例,左侧的视频开始是无人机飞越罗马竞技场,而右侧的视频逐渐过渡到像蝴蝶在水下游泳。在视频中有一个点,竞技场开始逐渐衰败,看起来像是被珊瑚礁覆盖,部分处于水下。这类生成的视频开始给人一种过去技术所无法带来的新感觉,我们对这些视频效果感到兴奋,甚至不仅仅是作为人们可以使用像Sora这样的技术生成的新体验。

在某种程度上,我们真的将模拟现实视为超越(旧技术)的第一步。

WVFRM Podcast:是的,Sora的技术越成熟,就越能模拟现实。用户就更能够在此基础上建立(新的现实)。理想情况下,这将能够解锁创意的无限可能。最后,你们还有什么想说的吗,无论是关于Sora还是OpenAI?

Sora:我们对从视频数据中学习如何让AI变得更有用而感到兴奋,而不仅仅是创造视频,(这是)因为我们生活在一个视觉化的世界。就像我们正在看的视频一样,世界上有很多信息不是以文本形式存在的。虽然像GPT这样的模型非常智能,了解很多关于世界的事情,但当它们没有以我们看视觉世界的方式看到世界时,它们就会遗漏一些信息。

因此,我们对Sora和其他基于Sora构建的AI模型的未来感到兴奋的是,通过从视觉数据中学习关于世界的信息,它们将有望更好地理解我们生活的世界,并在未来更好地帮助我们。

WVFRM Podcast:我非常期待,最终能够在Sora中实现更多可能的那一刻。

WVFRM Podcast(补充):我忘了在录音期间问他们,但每个人都想知道这个问题:用Sora生成一个视频需要多长时间?我在结束采访后又问了他们,答案是这取决于你的提示词。但(在生成视频时)你可能会离开,买杯咖啡,回来时它仍在处理视频——看起来需要一段时间。

采访链接:https://www.youtube.com/watch?v=Srh1lut4Q2A

更新时间 2024-03-12