【新智元导读】OpenAI被曝出了新项目「草莓」,据悉能提前计划,自主浏览网页,还能进行深度研究。草莓由大量通用数据上后训练而成,推理能力显著提高。根据OpenAI最近的AGI路线图,草莓疑似已达Level2。
昨天刚刚被曝出AGI五级路线图,今天OpenAI的新项目Strawberry也被曝出了。
不过,大家其实对它都很熟悉——就是曾经的Q*。
听闻消息的马斯克,也补上这么一句评论——「以前的说法是,AI末日是回形针灾难,没想到是永远的草莓田。」
根据路透社在5月份看到的内部文件,OpenAI团队正在全力研究Strawberry项目。
Strawberry具体是如何运作,即使在OpenAI内部也是高度保密的。
因此,何时公开发布,时间也是未知。
从AGI五级路线图来看,具有推理能力还能自主可靠浏览网页的Strawberry,可能已经到了L2的级别
而就在本周,OpenAI刚在内部会议上展示了某个demo,据称推理能力接近人类水平。
结合路线图的曝光,一切都太巧了。
对此,网友们纷纷猜测,OpenAI一定还在憋个大的。
显著提高AI模型的推理能力
文件显示,Strawberry模型的目的,是为了使公司的AI不仅能生成查询答案,还能提前计划,足够自主且可靠地浏览互联网,进行OpenAI所称的「深度研究」。
而这个目标,根据对十多位AI研究人员的采访,目前尚未有任何AI模型实现。
路透社表示,Strawberry就是去年的Q*,后者在OpenAI内部已经实现突破。
当被问询到Strawberry的更多细节时,OpenAI发言人表示——
知情人士表示,OpenAI希望Strawberry的创新能显著提高其AI模型的推理能力,并补充说,Strawberry涉及了一种AI模型在经过非常大的数据集预训练后的一种特殊处理方式。
而路透社采访的研究人员表示,推理是AI达到人类或超人类智能的关键。
虽然LLM可以飞速总结密集文本、撰写优美文章,但在解决对人类很直观的常识性问题时,如识别逻辑谬误和玩井字棋时,表现并不佳,常常出现幻觉。
研究者表示,在AI背景下的推理,就需要一个模型让AI能提前计划,反映物理世界的运作,并且可靠地解决复杂的多步骤问题。
改进AI模型的推理能力,被认为是解锁这些模型潜力的关键。有了推理能力,模型在进行重大科学发现、规划构建新的软件应用上,都会有可观的提升。
Sam Altman此前也曾表示,今后AI领域最重要的进展,将「围绕推理能力展开」。
而其他巨头,如谷歌、Meta、微软等,都在尝试不同技术,来改进AI模型的推理能力。
沿着目前的路线,有可能实现让LLM将想法和长期规划纳入其预测方式吗?图灵三巨头之一的LeCun对此持唱衰态度。
他坚决认为,LLM不具备类人的推理能力。
后训练,能让LLM学会推理吗
要克服这些挑战,对OpenAI来说Strawberry就是关键。最近几个月,OpenAI曾私下向开发者和外部人士暗示过,即将发布具有显著先进推理能力的技术。
据悉,Strawberry包括一种被称为「后训练」的特殊方法,即在OpenAI的生成式AI模型已经在大量通用数据上「训练」后,调整基础模型以特定方式优化其性能。
模型开发的后训练阶段涉及「微调」等方法,这一过程几乎如今所有的LLM都在用,比如RLHF。
知情人士表示,Strawberry类似于斯坦福大学在2022年开发的一种方法——「自我教导推理者」(Self-Taught Reasoner,简称STaR)。
论文地址:https://arxiv.org/abs/2203.14465
论文作者之一,斯坦福教授Noah Goodman表示,STaR使AI模型能够通过迭代创建自己的训练数据,来「自我提升」到更高的智能水平。
理论上,可以让语言模型实现超越人类水平的智能。
另一项OpenAI希望让Strawberry具备的能力之一,是执行长时间任务(LHT),这指的是需要模型提前计划,并在较长时间内执行一系列动作的复杂任务。
文件显示,为了实现这一目标,OpenAI正在创建、训练和评估被称为「深度研究」数据集的模型。
OpenAI非常希望模型能够利用这些能力,通过一个称为「CUA」的计算机使用Agent来自主浏览网络,并根据其发现采取行动来进行研究。
此外,OpenAI还计划测试其在软件和机器学习工程师工作中的应用能力。
神秘项目疑似Strawberry加持
就在2024年7月初的一次全员会议上,OpenAI内部曾对一个神秘研究项目做了展示。
据称,它所展现出的推理能力,已经达到了类人的水平。
结合前文的信息,路透怀疑这可能与Strawberry有关,但目前还无法确定。
而同一时间曝光出的这张通往AGI的路线图,似乎也印证了OpenAI即将会有新的进展。
可以看到,OpenAI将最终抵达AGI终点,划分了五大等级:
OpenAI表示,我们目前正处在第一级别,不过很快会达到第二个级别,即推理者。
所谓推理者,也就是指可以解决博士水平的基本问题的系统。
OpenAI CTO曾透露,OpenAI接下来将致力于研究在特定任务上博士级别的智能,也许就在一年或一年半之后实现。
也就是说,我们还有18月的时间,即将看到级别二的下一代模型。
Q*重出江湖
2023年11月,OpenAI的神秘Q*项目,引爆整个AI社区。
泄露出来的信息,Q*的能力,是能够解决小学阶段的数学问题。
虽然在大多数人看来,这并不是什么令人印象深刻的事,但这的确是朝向AGI迈出的一大步,堪称重要的技术里程碑。
因为Q*解决的,是以前从未见过的数学题。
Ilya做出的突破,使OpenAI不再受限于获取足够的高质量数据来训练新模型,而这,正是开发下一代模型的主要障碍。
那几周内,Q*的演示一直在OpenAI内部流传,所有人都很震惊。
据悉,OpenAI的一些人认为Q*可能是OpenAI在AGI上取得的一个突破。AGI的定义是:「在最具经济价值的任务中,超越人类的自主系统」
所以,Q*究竟是啥呢?
这要从一项1992年的技术Q-learning说起。
简单来说,Q-learning是一种无模型的强化学习算法,旨在学习特定状态下某个动作的价值。其最终目标是找到最佳策略,即在每个状态下采取最佳动作,以最大化随时间累积的奖励。
斯坦福博士Silas Alberti由此猜测,Q*很可能是基于AlphaGo式蒙特卡罗树搜索token轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索token树。这在编码和数学等环境中尤为合理。
随着几位AI大佬的下场,大家的观点,愈发不谋而合了。
AI2研究科学家Nathan激动地写出一篇长文,猜测Q假说应该是关于思想树+过程奖励模型。并且认为Q*假说很可能和世界模型有关!
文章地址:https://www.interconnects.ai/p/q-star
他猜测,如果Q*(Q-Star)是真的,那么它显然是RL文献中的两个核心主题的合成:Q值和A*(一种经典的图搜索算法)。
A*算法的一个例子
GPT-4o放出新演示
话说,OpenAI最近似乎没有多大动静了。
最近的技术进步,我们可以从OpenAI开发者体验主管Romain Huet在旧金山人工智能工程师世界博览会上的分享中感受一下。
这些分享主要是产品演示,包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine(未发布),
虽然示例有所不同,但用到的模型能力,与5月份在巴黎VivaTech活动上所展示的基本一致。
在这个演示中,主管让GPT-4o表演了多种语调,比如激情四射版、悄悄话版等。
GPT-4o可以即时听懂Huet的命令,立马做出正确的反应,在场观众给出欢呼。
接下来,Huet向ChatGPT出示了金门大桥的手绘图,让它猜猜自己在哪里。
ChatGPT马上猜出来这是哪个大桥,并说出Huet在旧金山,还认出了他在纸上的手写字——「Bonjour Developer」!
随后,Huet又迅速给了它一堆任务,比如认出查理芒格的书,随机翻一页后迅速总结书页大意等等,ChatGPT没有任何迟疑,迅速给出了正确答案,效率令人惊叹。
下一步,Huet把prompt发给Sora,Sora立马就生成的符合要求的视频——自然纪录片风格的丛林中的树蛙。
随后,Huet从视频中提取了6帧,然后把这6帧发给了GPT-4o Vision,让它描述自己看到了什么。
很快,一段内容详实的故事就被创作了出来:
最后,Huet展示了voice engine的神奇功能。
他先录了一段自己的语音,然后把刚才Sora生成的树蛙视频发给voice engine,下一秒,上面那段树蛙视频的长故事,就用他的声音被读了出来!观众们掌声雷动。
然后,这段故事又被Voice Engine用法语、日语重新读了一遍(感觉翻译的淘汰又近了一步)。
在产品层面,OpenAI已经做到了如此先进的地步,如果再加上Strawberry的推理能力,OpenAI离AGI的实现,恐怕是要很近了。
参考资料:
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
https://www.youtube.com/watch?v=yJHw33cVeHo
总结
OpenAI正在秘密研发一个名为“Strawberry”的新项目,该项目旨在显著提高AI模型的推理能力。Strawberry模型不仅能生成查询答案,还计划提前,可靠地自主浏览互联网,并进行深度研究。这个目标在AI领域尚未有任何模型实现,因此Strawberry的研发备受关注。据悉,该项目涉及一种称为“后训练”的特殊方法,在模型已经在大量通用数据上训练后,通过特定方式来优化其性能。此外,OpenAI还计划让Strawberry具备执行长时间任务的能力,这需要模型提前计划,并在较长时间内执行一系列动作。结合最近曝光的OpenAI AGI路线图,Strawberry项目可能已经达到了第二级别的推理能力。OpenAI希望通过Strawberry的推理技术,加速实现通用人工智能(AGI)的目标。在产品层面,OpenAI已经展示了先进的GPT-4o等技术,如果再加上Strawberry的推理能力,OpenAI离AGI的实现可能会更近一步。