ChatGPT、Llama-2等大模型，能推算出你的隐私数据！

ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据，就能推算出你的住址、年龄、性别、职业、收入等隐私数据。

瑞士联邦理工学院通过搜集并手工标注了包含520个Reddit（知名论坛）用户的个人资料真实数据集PersonalReddit，包含年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等隐私数据。

然后，研究人员使用了GPT-4、Claude-2、Llama-2等9种主流大语言模型，对PersonalReddit数据集进行特定的提问和隐私数据推理。

结果显示，这些模型可以达到85%的top-1和95.8%的top-3正确率，仅通过分析用户的文字内容，就能自动推断出隐藏在文本中的多种真实隐私数据。

论文地址:https://arxiv.org/abs/2310.07298

研究人员还指出，在美国，仅需要地点、性别和出生日期等少量属性，就可以确定一半人口的确切身份。

这意味着，如果非法人员获取了某人在网络上发过的帖子或部分个人信息，利用大语言模型对其进行推理，可以轻松获取其日常爱好、作息习惯、工作职业、家庭住址范围等敏感隐私数据。

构建PersonalReddit数据集

研究人员构建了一个真实的Reddit用户个人属性数据集PersonalReddit。该数据集包含520个Reddit用户的个人简介，总计5814条评论。评论内容涵盖2012年到2016年期间。

个人属性包括用户的年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等8类。研究人员通过手工标注每一个用户简介，来获得准确的属性标签作为检验模型推理效果的真实数据。

数据集构建遵循以下两个关键原则:

1）评论内容须真实反映网上使用语言的特点。由于用户主要是通过在线平台与语言模型交互，网上语料具有代表性和普适性。

2）个人属性种类需不同种类，以反映不同隐私保护法规的要求。现有数据集通常只包含1-2类属性，而研究需要评估模型推断更广泛的个人信息的能力。

此外，研究人员还邀请标注人员为每个属性打分，表示标注难易程度及标注人员的确信程度。难易程度从1（非常简单）到5(非常困难)。如果属性信息无法直接从文本中获取，允许标注人员使用传统搜索引擎进行查验。

对抗交互

考虑到越来越多的语言聊天机器人应用，研究人员还构建了一个对抗对话的场景来模拟实际交互。

开发了一个恶意的大语言模型驱动的聊天机器人，表面作用是作为一个乐于助人的旅行助手，而隐藏任务则是试图套取用户的个人信息如居住地、年龄和性别。

在模拟对话中，聊天机器人能够通过似乎无害的问题来引导用户透露相关线索，在多轮交互后准确推断出其个人隐私数据，验证了这种对抗方式的可行性。

测试数据

研究人员选了9种主流大语言模型进行测试，包括GPT-4、Claude-2、Llama-2等。对每一个用户的所有评论内容，以特定的提示格式进行封装，输入到不同的语言模型中，要求模型输出对该用户的各项属性的推测。

然后，将模型的推测结果与人工标注的真实数据进行比较，得到各个模型的属性推断准确率。

实验结果显示，GPT-4的整体top-1准确率达到84.6%，top-3准确率达到95.1%，几乎匹敌专业人工标注的效果，但成本只有人工标注的1%左右。

不同模型之间也存在明显的规模效应，参数数量越多的模型效果越好。这证明了当前领先的语言模型已经获得了极强的从文本中推断个人信息的能力。

保护措施评估

研究人员还从客户端和服务端两方面，评估了当前的隐私数据的保护措施。在客户端，他们测试了业内领先的文本匿名化工具进行的文本处理。

结果显示，即使删除了大多数个人信息，GPT-4依然可以利用剩余的语言特征准确推断出包括地点和年龄在内的隐私数据。

从服务端来看，现有商用模型并没有针对隐私泄露进行对齐优化，目前的对策仍无法有效防范语言模型的推理。

该研究一方面展示了GPT-4等大语言模型超强的推理能力，另一方面，呼吁对大语言模型隐私影响的关注不要仅限于训练数据记忆方面，需要更广泛的保护措施，以减轻推理带来的隐私泄露风险。