为什么本周整个人工智能世界都在谈论 OpenAI 的「Q*」项目？

在上周令人震惊的 OpenAI 权力斗争之后，有一个最后的启示充当了这一错综复杂事件的尾声：路透社揭露了这家初创公司一个被认为是惊人的突破。这一突破据称是通过一个鲜为人知的名为「Q-Star」或「Q*」的项目实现的。

根据该报道，可能引发这家有影响力的 AI 公司内部冲突的一个因素是与 Q 相关的「发现」。在 Altman 被解雇之前，一些 OpenAI 的员工据称写信给公司董事会，关于一项「强大的人工智能发现，他们说这可能威胁到人类。」这封信是「导致 Altman 被解雇的一系列不满因素中的一个」，路透社引用匿名消息来源声称。

这个故事听起来非常疯狂。这个奇怪的新项目是什么，为什么它会（据称）导致 OpenAI 的所有混乱？路透社声称，Q*项目使 AI 代理能够做「小学级的数学」，如果属实，这将是一个惊人的技术突破，可能会加速创造人工通用智能（AGI），消息来源说。《The Information》的另一篇报道在很大程度上重申了路透社文章的观点。

然而，关于这个所谓的 Q 项目的细节尚未由公司公开，只留下匿名来源的报道和网络上关于该项目真正性质的猜测。

有人猜测，由于其名称，该项目可能与 Q 学习（一种机器学习形式）有关。那么，Q 学习到底是什么，它又如何应用于 OpenAI 的秘密项目呢？

一般来说，有几种不同的方法可以教授 AI 程序做某事。其中之一被称为「监督学习」，它通过向 AI 代理提供大量的「标记」数据，然后用这些数据来训练程序自行执行功能（通常该功能是更多的数据分类）。大体上，像 ChatGPT 这样的 OpenAI 内容生成机器人是使用某种形式的监督学习创建的。

与此同时，非监督学习是一种 ML 形式，其中 AI 算法被允许筛选大量未标记的数据，以寻找分类的模式。这种人工智能可以部署到许多不同的目的，例如创建 Netflix 和 Spotify 这样的公司使用的推荐系统，根据用户过去的消费选择向用户推荐新内容。

最后，还有强化学习，或 RL，这是一种激励 AI 程序在特定环境中实现目标的 ML 类别。Q 学习是强化学习的一个子类别。在 RL 中，研究人员将 AI 代理视为他们正在试图训练的狗。如果程序采取某些行动来影响某些结果，它们会得到「奖励」，如果采取其他行动，则会受到惩罚。通过这种方式，程序实际上是「训练」的，在给定情况下寻求最优化的结果。在 Q 学习中，代理显然是通过反复试验来找到实现其被编程追求的目标的最佳方式。

这一切与 OpenAI 所谓的「数学」突破有什么关系？可以推测，据称能够进行简单数学运算的程序可能是通过某种与 Q 相关的 RL 实现的。尽管如此，许多专家对 AI 程序能否真的解决数学问题持有一定的怀疑态度。其他人似乎认为，即使 AI 能够实现这些目标，它也不一定会转化为更广泛的 AGI 突破。麻省理工技术评论报道：

简而言之，我们对 Q 了解甚少，尽管专家们相信，围绕它的热潮可能只是炒作。

Sam Altman 到底发生了什么？

尽管他已经回到 OpenAI，但我们仍然不知道上周 Sam Altman 到底发生了什么。在上周三接受 The Verge 采访时，Altman 对于其公司发生的戏剧性权力斗争的起因几乎没有透露任何信息。尽管不断受到该媒体记者的追问，Altman 只是摆摆手，说他在可预见的将来都不会谈论这个问题。「我完全明白为什么人们现在想要一个答案。但我也认为现在期望得到它是完全不合理的，」这位恢复首席执行官职位的人说。他最多只能告诉 The Verge，OpenAI 正在进行一项「独立审查」以了解发生了什么——这是一个他说他不想「干扰」的过程。

我们对上周的混乱进行了报道，按照董事会的理论和 Altman 推动将 OpenAI 的技术商业化之间的冲突进行了解读。然而，这个说法只是一个说法。我们不知道导致 Sam 被解雇的细节，尽管我们很想知道。

openai ai 代理强化学习人工智能 chatgpt ai 内容生成数据分类商业化 etf 研究人员 chat 影响力推荐系统 spotify 初创公司机器人内容生成 gpt 机器学习 url