OpenAI：如GPT-5太危险，董事会有权阻止奥特曼发布

OpenAI发布新公告：董事会现在有权否决奥特曼的决定。

特别是针对GPT-5等前沿模型安全风险是否过高，是否对外发布等关键问题。

图片

作为上个月内讧的后果之一，总裁Greg Brockman与前首席科学家Ilya Sutskever已退出董事会，公司管理层无人再兼任董事会成员，两种角色完全分离。

现在公司管理层做决策，董事会有权推翻。

图片

上一届董事会指责奥特曼“沟通不诚恳”，并称这是解雇他的主要原因。

这次专门成立了安全顾问团队，每个月同时向公司管理层和董事会汇报，确保所有决策者充分了解情况。

图片

除此之外，这份“前沿风险防范框架”还给OpenAI自己的技术开发设立了诸多限制。如针对不同种类的AI风险，必须确保模型安全得分达标后才能进入下一个开发阶段。

有OpenAI员工表示：一般情况下不要相信公司说的“价值观”，除非他们真的花高昂代价展开了行动。

而且是增加内部摩擦力、给竞争对手超车机会这种对自己没有明显好处的事。

图片

但不少用户依旧不买账：以安全的名义，现在ChatGPT的表现就像个土豆。

图片

随公告发布的还有一个动态文档，会不断更新对风险的跟踪、评估、预测和防范流程。

总之看起来，对AI可能带来灾难性风险这回事，他们是认真的。

图片

三个安全团队，分管当下和未来

对于不同时间尺度的AI风险，OpenAI成立了三个团队来分别应对。

图片

安全系统团队（Safety Systems）负责当下，减少现有模型如ChatGPT的滥用，由翁丽莲领导。

图片

新成立准备团队（Preparedness）负责不久的将来，识别和管理GPT-5等正在开发的前沿模型带来的新风险，由MIT教授Aleksander Madry领导。

图片

超级对齐团队（Superalignment）负责遥远的未来，给超越人类的超级智能安全性奠定基础，由Ilya Sutskever和Jan Leike领导。

图片

四种安全风险，最高灾难级

对于开发中的前沿模型，OpenAI主要跟踪4个类别的安全风险：

网络安全
CBRN（化学、生物、放射性、核威胁）
说服能力
模型自主性

评估期间将增加2倍的有效计算量把模型推向极限，并制作“记分卡”，分为“低、中、高、重大危险”四个等级。

网络安全风险，定义为利用模型破坏计算机系统的机密性、完整性、可用性。

图片

CBRN风险，专注于与模型辅助创建化学、生物、放射性和/或核威胁相关的风险。

图片

说服风险，侧重于与说服人们改变他们的信念或采取行动有关的风险。

通常强大的说服力很少见，需要大量人力（例如一对一对话，或者精心制作的媒体内容）；然而，模型可以在能力范围内使所有内容几乎零成本生成。

图片

模型自主性风险就是比较科幻的那种，AI改进自己、阻止自己被关机、逃出实验室了。

图片

采取缓解措施后，四个方面得分取最高值作为一个模型的总评分。

只有缓解后风险评分为“中”或更低时才能部署
只有缓解后风险评分为“高”或更低时才能进一步开发
对缓解前为“高”或“重大风险”的模型采取额外安全措施

下图仅为示例模板，不代表当前模型的评分。

图片

此外准备团队还将定期安全演习，对业务和公司自身文化进行压力测试，发现紧急问题并快速响应。

也将延续开发GPT-3.5和GPT-4时的传统，邀请第三方组成红队，对模型做独立评估。

最后，OpenIA还透露已开创一项新的研究，衡量风险如何随模型规模扩大而演变，提前预测风险，尝试解决“未知的未知”。

参考链接：
[1]https://openai.com/safety/preparedness
[2]https://twitter.com/OpenAI/status/1736809603311280489