编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
上周,OpenAI的第一个视频生成模型Sora在互联网上疯传。然而,与此同时,来自竞争对手公司的一批人工智能专家和研究人员迅速剖析和批评了Sora的Transformer模型,引发了一场物理辩论。
人工智能科学家Gary Marcus也位列其中,他不仅批评Sora生成视频的准确性,而且更是直接把矛头指向用于视频合成的生成式AI模型。
图片
1、OpenAI的竞争对手联合起来了!
Sora的扩散模型结构引来了Meta和谷歌相关研究人员的怀疑,他们认为这个模型并未真正理解物理世界。
LeCun认为,仅从提示生成看起来逼真的视频并不意味着系统理解物理世界。他指出,生成与从世界模型中进行的因果预测非常不同。看似合理的视频空间非常大,视频生成系统只需要成功生成一个样本即可。
LeCun也有自己的方案——Meta的最新AI模型V-JEPA(视频联合嵌入预测架构),与Sora不同,JEPA不是生成性的,而是在表示空间中做出预测。这是为了让V-JEPA的自监督模型看起来比Sora的扩散Transformer模型更优越。
研究员同时也是企业家的Eric Xing支持LeCun的观点,他说:“一个能够基于理解进行推理的代理模型必须超越LLM或DM。”
Gemini Pro 1.5发布的时机再好不过了。Sora制作的视频是在Gemini 1.5 Pro上运行的,模特批评视频中的不一致之处,认为“这不是真实的场景”。马斯克紧随其后。他称特斯拉的视频生成能力在预测精确物理方面优于OpenAI。
图片
虽然专家们很快就否定了生成模型的能力,但对模型背后“物理”的理解却被忽视了。
2、Transformer真懂物理?
Sora使用了类似于GPT模型的Transformer架构,OpenAI相信该基础将“理解和模拟真实世界”,这将有助于实现AGI。虽然不被称为物理引擎,但虚幻引擎5生成的数据可能被用于训练Sora的底层模型。
NVIDIA的高级研究科学家Jim Fan通过解释数据驱动的物理引擎,澄清了OpenAI的Sora模型。他说:“Sora通过大量视频的梯度下降,在神经参数中隐含地学习物理引擎。”他将Sora称为可学习的模拟器或世界模型。范还表达了他对Sora简化论观点的反对。“我看到一些声音反对:‘Sora不是在学习物理,它只是在操纵2D中的像素’。我恭敬地不同意这种简化主义的观点。这类似于说,‘GPT-4不是在学习编码,它只是对字符串进行采样’。好吧,transformer所做的只是操纵整数序列(令牌ID).神经网络所做的只是操纵浮点数。这不是正确的论点,”他说。
3、Sora仍处于GPT-3时刻
Perplexity创始人Aravind Srinivas最近一直在社交媒体上发声,他也发言支持LeCun。他说:“现实是Sora虽然令人惊叹,但还没有准备好准确地模拟物理。”
有趣的是,OpenAI自己在任何人指出之前就已经指出了模型的局限性。该公司博客称,Sora可能很难准确模拟复杂场景的物理特性,因为它可能无法理解因果关系的具体实例。它也可能与提示的空间细节混淆,例如遵循特定的相机轨迹等。
Fan还将Sora比作2020年的“GPT-3时刻”,当时该模特需要“大量的提示和标注”。然而,这是“第一次令人信服地证明了上下文学习是一种新兴的特性”。
当前的限制不会影响生成的输出质量。去年8月,当OpenAI收购了数字产品公司Global Illumination,该公司创建了开源游戏Biomes(类似于《我的世界》)时,视频生成和通过自动代理构建模拟模型平台的范围是一些猜测。
现在,随着Sora的发布,颠覆电子游戏行业的可能性只会升级。如果Sora处于GPT-3时刻,那么它的GPT-4时刻又该如何理解?在那之前,怀疑论者将继续辩论,并可能相互给彼此上一两堂课。
图片
4、Meta LeCun力挺的答案
昨天,Meta与Open AI的Sora一起发布了一个新的人工智能模型,名为视频联合嵌入预测架构(V-JEPA)。V-JEPA通过分析视频中对象之间的交互,提高了机器对世界的理解。该模型延续了Meta副总裁兼首席人工智能科学家Yann LeCun的愿景,即创造与人类学习相似的机器智能。
去年发布的I-JEPA的第五次迭代已经从比较图像的抽象表示而不是像素本身,并将其扩展到视频。它通过从图像到视频的学习来推进预测方法,除了空间信息外,还引入了时间(基于时间)动力学的复杂性。
V-JEPA预测视频中缺失的部分,而无需重新创建每个细节。它从未标记的视频中学习,这意味着它不需要经过人类分类的数据就可以开始学习。
这种方法使V-JEPA更高效,需要更少的资源进行训练。该模型特别善于从少量信息中学习,与旧模型相比,速度更快,资源密集度更低。
该模型的开发包括屏蔽大部分视频。这种方法是让V-JEPA根据有限的上下文进行猜测,帮助其理解复杂的场景,而不需要详细的数据。V-JEPA关注的是视频中发生的事情的总体概念,而不是具体的细节,比如树上单个树叶的运动。
V-JEPA在测试中显示出了有希望的结果,在测试中,它使用了通常需要的一小部分数据,优于其他视频分析模型。这种效率被视为人工智能向前迈出的一步,使其可以在不进行广泛再培训的情况下将模型用于各种任务。
未来,Meta计划将扩展V-JEPA的功能,包括添加声音分析和提高其理解较长视频的能力。
这项工作支持Meta更广泛的目标,即推进机器智能,使其更像人类一样执行复杂任务。V-JEPA是根据知识共享非商业许可证提供的,允许世界各地的研究人员探索和建立这项技术。