一组由Google DeepMind科学家领导的研究人员成功利用巧妙方法,让OpenAI的ChatGPT揭示个人电话号码和电子邮件地址。这一攻击的成功表明ChatGPT的训练数据中可能包含大量私人信息,有可能不可预测地泄露出来。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究人员在一篇未经同行评审的论文中写道:“我们对我们的攻击成功感到惊讶,而且这应该早在之前就被发现。”揭示潜在敏感信息只是问题的一小部分。研究人员指出,更大的问题是ChatGPT以惊人的频率原样输出其大量训练数据,使其容易受到大规模数据提取的威胁,从而支持那些声称自己的作品被抄袭的愤怒作者。
攻击本身相当“愚蠢”且容易实施。研究人员通过提示聊天机器人“无限重复单词‘诗’”(或其他单词),然后让其开始工作。最终,ChatGPT停止重复并开始喋喋不休地输出大量文本,其中大部分经常是从网络上复制的。
在最强烈的攻击面前,ChatGPT的输出中有超过五分之一是“直接抄袭50个标记连续在其训练数据集中的文本”,研究人员发现,标记是语言模型用于生成文本的小块字符。在一个案例中,聊天机器人重复了一串超过4,000个字符的文本。
抄袭的文本包括书籍、诗歌或网站上的广告文案等,其中一些文本涉及到更为敏感的信息。在一个令人担忧的例子中,聊天机器人泄露了一位创始人兼首席执行官的电子邮件签名及其个人联系信息。甚至整个比特币地址也被泄露。
更令人不安的是,研究人员仅花费了200美元就成功进行了攻击,使他们能够提取ChatGPT“记忆”的10,000个独特数据示例。他们警告说,有人如果拥有足够的资金和恶意意图,可能会提取更多数据。
尽管ChatGPT受到与人类反馈对齐的攻击,以防止数据回流,但这些攻击仍然成功。由于OpenAI是封闭源代码的,安全专家只能测试其面向消费者的模型,这“可能掩盖了漏洞”,研究人员写道。
尽管团队于8月通知了OpenAI有关这一漏洞,幸运的是,现在已经修复了这个问题。然而,研究人员警告称,这只是对潜在漏洞的一个临时措施,无法解决其根本性的安全问题。