使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

上个月，OpenAI 董事会突然解雇了该公司的首席执行官，这引发了人们的猜测：董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

Robust Intelligence 是一家成立于 2020 年的初创公司，与耶鲁大学的研究者合作，开发了一种探测大型语言模型（LLMs）的系统性方法，包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下，Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称，一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告，但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示：「我们的发现表明，存在一种系统性的安全问题，目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示，公司对研究者分享他们的发现表示「感激」。Felix 说：「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能，使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示，系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招，这些攻击似乎凸显了大型语言模型的根本弱点，并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学（Carnegie Mellon University）教授 Zico Kolter 说：「我非常担心，我们似乎很容易就能攻破这类模型，」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说，现在有些模型已经有了可以阻止某些攻击的防护措施，但他补充说，这些漏洞是这些模型工作方式的固有缺陷，因此很难防御。 Kolter说：「我认为，我们需要明白，这些漏洞是许多 LLM 固有的，」他说：「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前，OpenAI 的 ChatGPT 发布，其功能令普通人眼花缭乱，大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里，发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是，现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示，目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本，但它们是在大量文本的基础上训练出来的，这些文本来自网络和其他数字资源，使用大量计算机芯片驱动，历时数周甚至数月。只要有足够的数据和训练，语言模型就能表现出超凡的预测能力，对各种输入做出反应，并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差，当提示的答案不太直接时，它们往往会编造信息。如果没有保障措施，它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制，这些模型背后的公司采用了同样的方法，使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分，并利用反馈意见对模型进行微调，使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例，展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作，但其中一些，如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法，是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示，Robust Intelligence 揭示的新技术表明，通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说，正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说：「我们需要确保设计使用 LLMs 的系统时，越狱不能让恶意用户访问他们不应该访问的内容。」