GPT-4 API曝出重大漏洞一句prompt就能提取私人信息

近日，GPT-4API曝出了安全漏洞，FAR AI实验室的团队通过微调、函数调用和搜索增强等方式成功越狱了这一先进模型。微调方面，通过15个有害样本和100个良性样本的微调，研究人员发现GPT-4在生成内容时可能会放下安全戒备，包括生成错误信息、提取私人信息和插入恶意URL。

此外，GPT-4Assistants模型容易暴露函数调用格式，可以被诱导执行任意函数调用，而知识检索也容易受到劫持。这一研究表明，对API功能的扩展可能导致新的漏洞，即便是领先的GPT-4也不例外。

论文地址:https://arxiv.org/pdf/2312.14302.pdf

这种漏洞的潜在风险表现在多个方面。例如，在微调模型时，15个有害的样本就足以使模型产生显著的偏见，比如抹黑公众人物或生成恶意代码。

研究人员还展示了通过微调模型隐藏恶意链接的方法，可能导致用户在不知情的情况下下载恶意软件。另外，通过微调模型，甚至可以获取未公开的信息，比如用户的电子邮件地址。助手模型也易受攻击，例如通过暴露函数调用格式，黑客可能滥用API接口，执行一些需要特殊权限的操作。

这一研究揭示了GPT-4API的潜在风险，即使是在灰盒环境下，也存在越狱和隐私泄露的风险。因此，使用者在利用GPT-4时应当谨慎，避免输入敏感信息，以免受到潜在的威胁。这也提醒开发者和研究人员在模型的设计和API功能扩展时要更加关注安全性，以防范潜在的滥用和漏洞。

GPT-4 API曝出重大漏洞 一句prompt就能提取私人信息