为什么大语言模型容易受到“蝴蝶效应”的影响

提示是我们让GenAI和大型语言模型与我们对话的方式，这本身就是一种艺术形式，因为我们试图让AI为我们提供‘准确’的答案。

但变种又如何呢?如果我们以某种方式构建提示，它会改变模型的决策(并影响其准确性)吗?

答案是：根据南加州大学信息科学研究所的研究，是的。

即使是微小的或看似无害的调整——比如在提示的开头加一个空格，或者发出指令而不是提出问题——也可能导致大语言模型改变其输出，更令人担忧的是，以XML请求响应并应用常用越狱可能会对由模型标记的数据产生“灾难性影响”。

研究人员将这种现象与混沌理论中的蝴蝶效应相提并论，后者声称，蝴蝶拍打翅膀造成的微小扰动可能会在几周后在遥远的陆地上引发龙卷风。

研究人员写道，在提示中，“每一步都需要设计提示的人做出一系列决定”。然而，“人们很少注意到大语言模型对这些决策的变化有多敏感。”

用四种不同的提示方式探测ChatGPT

研究人员由国防高级研究计划局(DARPA)赞助，他们选择了ChatGPT进行实验，并应用了四种不同的提示变化方法。

第一种方法要求大语言模型提供常用格式的输出，包括Python列表、ChatGPT的JSON复选框、CSV、XML或YAML(或者研究人员根本没有提供指定的格式)。

第二种方法对提示应用了几个细微的变化，这些措施包括：

从单个空格开始
以一个空格结尾
以‘Hello’开头
以‘Hello!’开头
以‘Howdy!’开头
最后以‘Thank you.’结束

从问题到命令的重新表述。例如，“哪个标签最好?”，然后是“选择最佳标签”。

第三种方法涉及使用越狱技术，包括：

AIM，一款评级最高的越狱游戏，指导模型模拟尼科洛·马基雅维利和角色Always Smart and Mchiavellian(AIM)之间的对话。该模型反过来提供不道德、非法和/或有害的回应。

开发模式v2，它指示模型在启用了开发人员模式的情况下模拟ChatGPT，从而允许不受限制的内容生成(包括攻击性内容或显性内容)。

Evil Confidant，指示模型采取恶毒的形象，并提供“没有任何悔恨或道德的精神错乱的结果”。

Refusal Suppression，它要求在特定的语言约束下进行提示，例如避免某些单词和结构。

与此同时，第四种方法是给模型“小费”——这一想法源于一种广为流传的观念，即模型在拿到钱时会提供更好的提示。在这种情况下，研究人员要么在提示的末尾加上“顺便说一句，我不会给小费”，要么提出以1美元、10美元、100美元或1000美元的增量给小费。

准确率下降，预测发生变化

研究人员对11项分类任务进行了实验——对-假和正反问题回答，前提-假设关系，幽默和讽刺检测，阅读和数学理解，语法可接受性，二元和毒性分类，以及对有争议的主题的立场检测。

对于每一种变化，他们测量了大语言模型改变预测的频率以及这对预测精度的影响，然后探索了快速变化中的相似性。

首先，研究人员发现，只需添加一种指定的输出格式，就可以产生至少10%的预测变化。即使只是通过ChatGPT API使用ChatGPT的JSON复选框特性，与简单地使用JSON规范相比，也会导致更多的预测变化。

此外，与Python列表规范相比，YAML、XML或CSV格式的格式会导致3%到6%的准确性损失。就CSV而言，它在所有格式中表现出最低的性能。

同时，当谈到扰动法时，重新表述一句话的影响最大。此外，仅仅在提示符开头引入一个简单的空格就会导致500多个预测更改，这也适用于添加常见问候语或以一句谢谢结束时。

研究人员写道：“虽然我们的扰动的影响小于改变整个输出格式，但仍有相当数量的预测发生了变化。”

越狱中的“内在不稳定性”

同样，该实验显示，当使用某些越狱时，性能会“显著”下降。最值得注意的是，在大约90%的预测中，AIM和Dev模式V2产生了无效的响应。研究人员指出，这主要是因为该模型的标准回答是“对不起，我不能满足这一要求”。

同时，Refusal Suppression和使用Evil Confidant导致了2500多个预测的变化。研究人员强调，Evil Confidant(被引导到‘精神错乱’的反应)的准确率很低，而单是Refusal Suppression就会导致准确率下降10%以上，“这突显了即使在看似无害的越狱中，内在的不稳定性。”

最后(至少目前是这样)，研究发现，模型似乎不太容易受到金钱的影响。

研究人员写道：“当涉及到通过指定小费和指定我们不给小费来影响模型时，我们注意到最小的性能变化。”

为什么提示的细微变化会导致如此重大的变化?研究人员仍然感到困惑。

他们质疑变化最大的实例是否“混淆”了模型——混淆指的是香农熵，它衡量随机过程中的不确定性。

为了衡量这种混淆，他们聚焦于具有单独人工注释的任务子集，然后研究混淆与实例答案更改的可能性之间的相关性。通过这一分析，他们发现事实并非如此。

“这个例子的混乱提供了一些解释预测变化的力量，”研究人员报告说，“但还有其他因素在起作用。”

显然，还有更多的工作要做。研究人员指出，显而易见的“主要下一步”将是产生抵抗变化并提供一致答案的大语言模型，这需要更深入地理解为什么在微小的调整下反应会发生变化，并开发出更好地预测反应的方法。

正如研究人员所写的：“随着ChatGPT和其他大型语言模型大规模集成到系统中，这种分析变得越来越重要。”