今天,一个有关「威尔・史密斯吃意大利面」的视频正在社交媒体疯传。视频画面分为上下两段:上半段显示是「一年以前的 AI 视频」,下半段则显示「现在的 AI 视频」。
众所周知,对于 AI 来说,生成「威尔・史密斯吃意大利面」的视频并不容易,人物的手、面条以及面条入口后的形变对于之前的 AI 来说都是很大的挑战,所以这一问题被很多人戏称为「视频生成界的图灵测试」。Runway、Pika 等著名的视频生成 AI 都在这个问题上贡献了很多鬼畜素材。
在 OpenAI 发布了 Sora 之后,也有人向「在线接单」的 Sam Altman 发起了这一挑战,但 Altman 没有应战。
但几天之后,一个疑似用 Sora 生成的「威尔・史密斯吃意大利面」视频开始在社交媒体疯传。从视频下半段可以看出,现在顶级的 AI 似乎已经攻克了上述「图灵测试」,生成的手、面条都很逼真。再结合最近 OpenAI 晒出的各种 Sora 生成结果,很多人开始相信:这是 Sora 生成的新视频,现在的视频生成 AI 已经演变到如此以假乱真的水平了。
但大家很快发现,原来这只是威尔・史密斯在玩梗:视频下半段其实是他自己录的。也就是说,这次,威尔・史密斯扮演了人工智能生成的自己。有人调侃说,他在《机械公敌》中积累的演技总算派上了用场。
那 Sora 究竟能不能生成吃意大利面的场景呢?这个问题目前还没有测试结果。尽管最近几天,Sora 开启了刷屏模式,似乎人人都能测试 Sora,但事实并非如此。OpenAI 表示他们尚未向公众开放测试权限,只分享给了一批精选的研究人员和学者使用。Sam Altman 前几天还开启了在线接单模式:网友提出要求,他来帮助大家完成。
由于 Sora 开放测试遥遥无期,大家都有些等不及了。于是,一些网友玩起了一个新游戏:用真实视频冒充 Sora 生成的视频。这些视频真假难辨,让你一时间不知道视频是 Sora 生成的,还是有人拿其他视频冒充的。
比如在下面一段关于汉堡的示例中,有网友表示该视频是由 OpenAI 的新模型 Sora 生成的。这段视频的提示语为「芝士汉堡广告,卡门贝尔芝士填充的面包,切半后从面包中爆出流淌的芝士,横切面视图,一位男士正在吃着流淌着绵长卡门贝尔芝士的汉堡,高清」。
不过,该视频立马引来 Gary Marcus 的关注,他毫不客气地表示:假的,这不是 Sora 生成的。
来源:https://twitter.com/GaryMarcus/status/1759578135665004683
对此,网友表示深刻的赞同:「这和 5 年前的 youtube 视频几乎一模一样」。
视频地址:https://youtu.be/ieRuoEMnb4A
通过查看两处视频,很难让人不怀疑这是有人拿 youtube 视频冒充 Sora 生成的,目前看来就算有人传播假的 Sora 视频,大众似乎也很难发现。
在另一个示例中运动员身姿矫健地做着各种连贯的动作,并声称该视频同样是由 Sora 生成的:
不过该视频同样遭到网友打假,并表示:这种视频可以举报了。
有人从狗狗的毛发里看出了端倪,这位网友认为「不可能有 AI 生成的毛茸茸的白狗,比真正的毛茸茸的白狗更好。」
不过也被其他人指出这是一个真实的视频,不是 AI 生成的。
Sora 太真,我们的眼睛都开始叛变了
Sora 发布的第一天就震撼了大家,超强的一致性和文本遵循能力迅速与 Pika、Runway、Stable Video 等视频生成模型拉开距离。Sora 的魅力在于生成结果的逼真度,它已经超出了传统视频编辑的界限,更是挑战了我们对于现实的认知。当我们沉浸在 Sora 的作品中时,你会发现眼睛似乎已经背叛了自己,毕竟其中的每一个细节都在告诉你,这是一个真实的视频。
热度狂涨,Sora 发布后涌现了大量的精彩案例,人物、动物、植物、建筑等主体,现实、奇幻、科幻、赛博等不同风格,都被 Sora 熟练掌握。一时之间,你会不会也分不清这是实物拍摄、人工特效还是 AI 制作?
Sora 不仅是技术的胜利,而且正在颠覆视觉表达领域。它把文字变成了动态的视觉故事,而这无需复杂的拍摄设备或后期制作技巧,仅凭一段文本,就能创造出令人惊叹的视觉作品。
不仅如此,Sora 强大的视频编辑能力也挺离谱,输入一段视频,Sora 将在不改变其他元素的情况下,根据你的文字提示做出编辑。这谁还分得清真「后期大佬」到底是谁呀。
网友 @ai_for_success 在这场 AI 与现实的混合战中不禁感叹:在看了 Sora 的生成结果之后,我觉得 OpenAI 所取得的成就远远超出了我们的认知。
不过别太担心,面对如此逼真的 Sora 我们依然能够保留辨别能力。细看之下 Sora 生成的视频还有一些 bug 存在,仔细辨认的话,你就能够给它打上 AI 生成的标签:人体动作的错误、凭空出现的事物、错误的物理建模以及不合常理的交互方式和结果。当你观察到这些,基本就能确认这是 AI 的生成结果。
也许正如网友所说,目前视频生成的一个基准大概就是:Will Smith eating dreadlocks of a guy eating spaghetti。不如你也用这个 prompt 去试试视频生成大模型现在的真实水平吧。