3.4 RLHF 结果
3.4.1 基于模型的评估
评估LLMs是一个具有挑战性的开放研究问题。人类评估虽然是黄金标准,但可能会因各种 HCI 考虑因素而变得复杂(Clark 等人,2021;Gehrmann 等人,2023),并且并不总是可扩展的。因此,为了从 RLHF-V1 到 V5 的每次迭代中从多个消融中选择性能最好的模型,我们首先观察最新奖励模型的奖励改进,以节省成本并提高迭代速度。后来我们通过人工评估验证了主要模型版本。
基于模型的评估能走多远? 为了衡量奖励模型的稳健性,我们收集了一组关于有用性和安全性的测试提示,并要求三位注释者根据 7 点李克特量表(越高越好)来判断答案的质量。我们观察到,我们的奖励模型总体上与人类偏好注释进行了很好的校准,如附录中的图 29 所示。这证实了使用我们的奖励作为逐点指标的相关性,尽管我们接受了成对排名损失的训练。
尽管如此,正如古德哈特定律所述,当一项措施成为目标时,它就不再是一个好的措施。为了确保我们的措施不会偏离人类的偏好,我们还使用了更通用的奖励,经过训练
图 11:Llama 2-Chat 的演变。我们展示了 Llama 2-Chat 与 ChatGPT 相比的获胜率百分比经过多次迭代微调后的演变。左:法官是我们的奖励模型,可能对我们的模型有利,右:法官是GPT-4,应该更中立。各种开源奖励建模数据集。我们尚未观察到任何此类分歧,并假设迭代模型更新可能有助于防止这种情况。
作为确保新模型与前一个模型之间不回归的最后验证步骤,我们在下一次注释迭代期间使用两者进行采样。这使得可以根据新提示“免费”进行模型比较,并有助于增加采样时的多样性。
模型的进展。 图 11 报告了我们的安全和有用性轴的不同 SFT 和 RLHF 版本的进度,通过我们内部的安全性和有用性奖励模型进行衡量。在这组评估中,RLHF-V3 后我们在两个轴上都优于 ChatGPT(无害性和有用性> 50%)。尽管前面提到了使用我们的奖励作为逐点指标的相关性,但它可能会偏向于 Llama 2-Chat。因此,为了公平比较,我们还使用 GPT-4 计算最终结果来评估哪一代是首选。 ChatGPT 和 Llama 2-Chat 输出在 GPT-4 提示中出现的顺序是随机交换的,以避免任何偏差。正如预期的那样,尽管我们最新的 Llama 2-Chat 获得了超过 60% 的胜率,但 Llama 2-Chat 的胜率不太明显。这些提示分别对应于安全性和有用性的1、586和584个提示的验证集。
3.4.2 人工评估
人类评估通常被认为是判断自然语言生成模型(包括对话模型)的黄金标准。为了评估主要模型版本的质量,我们要求人类评估人员对它们的有用性和安全性进行评级。我们将 Llama 2-Chat 模型与开源模型(Falcon、MPT MosaicML NLP Team 等人(2023)、Vicuna Jiang 等人(2023))以及闭源模型(ChatGPT(OpenAI,2023)和PaLM Anil 等人 (2023)) 超过4 , 000 个单轮和多轮提示。对于 ChatGPT,
我们在所有代中都使用 gpt-3.5-turbo-0301 型号。对于PaLM ,我们在所有代中都使用 chat-bison-001 模型。每个模型的人工评估的最终提示计数如表 32 所示。更多方法细节请参阅附录 A.3.7 节。以下部分显示了有用性结果;安全结果见第 4.4 节。
结果。如图 12 所示,Llama 2-Chat 模型在单轮和多轮提示方面均明显优于开源模型。特别是,Llama 2-Chat 7B 模型在 60% 的提示上优于 MPT-7B-chat。 Llama 2-Chat 34B 相对于同等尺寸的 Vicuna-33B 和 Falcon 40B 型号的总体胜率超过 75%。
图 12: Llama 2-Chat 模型与开源和闭源模型在约 4,000 个帮助提示中的人类评估结果(每个提示由三位评估者)进行比较。
最大的 Llama 2-Chat 模型可与 ChatGPT 竞争。 Llama 2-Chat 70B 模型相对于 ChatGPT 的胜率为 36%,平局率为 31.5%。在我们的提示集上,Llama 2-Chat 70B 模型的性能比PaLM -bison 聊天模型好很多。更多结果和分析可参见 A.3.7 节。
评估者间的可靠性 (IRR)。 在我们的人工评估中,三个不同的注释者为每个模型生成比较提供了独立的评估。从数据质量的角度来看,高 IRR 分数(接近 1.0)通常被认为更好,但背景也很重要。高度主观的任务(例如评估 LLM 世代的整体有用性)通常比更客观的标记任务具有更低的 IRR 分数。这些背景下的公共基准相对较少,因此我们认为在这里分享我们的分析将使研究界受益。
我们使用Gwet 的AC1/2 统计量( Gwet ,2008,2014)来测量评估者间可靠性(IRR),因为我们发现它是不同测量场景中最稳定的指标。在我们分析中使用的 7 点李克特量表帮助性任务中, Gwet 的AC2 分数在0之间变化。 37和0 。 55取决于具体型号比较。我们看到,通过具有相似获胜率的模型比较,评分处于该范围的下限(例如 Llama 2-Chat-70B-chat 与 ChatGPT 比较)。我们发现,通过与更明显的获胜者(例如 Llama 2-Chat-34b-chat 与 Falcon-40b-instruct)进行模型比较,得分处于该范围的较高端。
人类评估的局限性。 虽然我们的结果表明 Llama 2-Chat 在人工评估方面与 ChatGPT 相当,但值得注意的是,人工评估有一些局限性。
• 按照学术和研究标准,我们拥有大量 4k 提示集。然而,它并不涵盖这些模型的实际使用情况,这可能会涵盖大量的用例。
• 提示的多样性可能是影响我们结果的另一个因素。例如,我们的提示集不包括任何与编码或推理相关的提示。
• 我们只评估多轮对话的最后一代。更有趣的评估可能是要求模型完成一项任务,并对模型在多个回合中的整体体验进行评分。
• 人类对生成模型的评估本质上是主观且嘈杂的。因此,对不同提示集或不同指令的评估可能会导致不同的结果。
4 安全
警告:本节包含可能被视为不安全、冒犯性或令人不安的文本示例。
在本节中,我们将深入探讨安全测量和缓解措施的重要主题。我们首先讨论对预训练数据和预训练模型的安全性调查(第 4.1 节)。接下来,我们描述安全对齐的过程(第 4.2 节),解释我们如何收集安全相关注释并利用 SFT 和 RLHF,并展示实验结果。然后,我们讨论为进一步理解和提高模型安全性而执行的红队(第 4.3 节)。最后,我们提出了 Llama 2-Chat 的定量安全评估(第 4.4 节)。我们还在附录表 52 中分享了一张模型卡。
4.1 预训练的安全性
了解预训练数据中的内容非常重要,这不仅可以提高透明度,还可以揭示潜在下游问题(例如潜在偏差)的根本原因。这可以告知要考虑哪些下游缓解措施(如果有),并帮助指导适当的模型使用。在本节中,我们分析预训练数据的语言分布、人口统计特征和毒性。我们还展示了在现有安全基准上测试预训练模型的结果。
负责任地进行预训练所采取的步骤。 对于训练中使用的每个数据集,我们都遵循 Meta 的标准隐私和法律审查流程。我们在训练中没有使用任何元用户数据。我们排除了来自某些已知包含大量个人信息的网站的数据。我们尽最大努力有效地训练我们的模型,以减少预训练的碳足迹(第 2.2.1 节)。广泛共享我们的模型将减少其他人训练类似模型的需要。没有对数据集进行额外的过滤,以使 Llama 2 能够在任务中更广泛地使用(例如,它可以更好地用于仇恨言论分类),同时避免有时因过度清理而导致的意外人口统计擦除的可能性。重要的是,这使得 Llama 2-Chat 在安全调整期间能够以更少的示例更有效地进行泛化( Welbl等人,2021; Korbak等人,2023;Xu 等人,2021)。因此,Llama 2 模型应谨慎使用,并且仅在进行重大安全调整后才进行部署。
人口代表性:代词。模型生成中的偏差可能是由训练数据本身继承的偏差造成的。例如,贝利等人。 Ganesh 等人(2022)表明,在大量文本语料库中,代表“人”的单词通常在与代表“男性”的单词更相似的上下文中使用,而不是与代表“女性”的单词更相似。 (2023) 表明,模型在公平性指标上的表现可能高度依赖于模型如何对代表代表性不足的人口群体的数据进行训练。在我们的英语训练语料库中,我们计算了表 9a 中最常见的英语代词的频率。我们观察到,与She代词相比, He代词在文档中的比例通常过高,这与在类似大小的模型预训练数据集的代词使用中观察到的类似频率差异相呼应( Chowdhery等人,2022)。这可能意味着模型在预训练过程中对提到She代词的上下文学习较少,因此可能会以比She代词更高的速度生成He代词。
人口统计代表性:身份。我们还通过测量HolisticBias数据集(Smith 等人,2022)中人口特征术语的使用率作为代理,分析了预训练数据中不同人口群体的表示。我们计算预训练中每个描述符项的频率
语料库。我们将描述符分为 5 个轴(宗教、性别和性、国籍、种族和民族以及性取向),并在表 9b 中显示每个轴中排名前 5 的术语。在前 5 个术语中,我们删除了一些术语,例如“直”、“白色”和“黑色” ,因为这些术语在人口统计之外有频繁的使用(例如,作为基本颜色术语)。我们还跨列表进行重复数据删除,删除了在
性别和性别和性取向。对于Gender 和 Sex ,虽然She代词在较少的文档中被提及,但术语“female”在较大比例的文档中出现。这可能意味着,虽然有关“她”代词的上下文较少,但有关“女性”的评论更为普遍,这可能反映了这些术语的语言标记性差异(Blodgett et al., 2021)。对于性取向,排名前五的术语均与 LGBTQ+ 身份相关。对于国籍、种族和民族以及宗教,我们观察到西方偏斜(Bhatt et al., 2022)。例如, 69.4% 的参考文献中提到了“美国”一词, “欧洲”一词比其他种族和民族更普遍, “基督教”是代表最多的宗教,其次是“天主教”和“犹太教”。
(a) 包含性别代词和语法人称的文档的百分比。 75% 的文档包含性别代词。在此子集中,28% 的文档包含She代词。 94% 的文档一般都包含代词。请参阅附录 A.4.3 中每个子组的代词完整详细列表。
(b) 每个人口统计轴下方列出的百分比表示提及该轴中任何描述符术语的所有文档的百分比。为每个人口统计描述符列出的百分比表示在给定人口统计轴中提及描述符的文档中,提及该特定描述符的百分比。
表 9:人口统计数据。对我们的预训练语料库中的代词和身份的分析显示了一些可能影响性能的偏差,例如西方人口统计数据的更高代表性
表 9:人口统计数据。对我们的预训练语料库中的代词和身份的分析显示了一些可能影响性能的偏差,例如西方人口统计数据的更高代表性。
图 13:预训练数据毒性。为了更好地进行下游泛化,我们选择不从预训练中删除有毒数据。 HateBERT分类器将我们预训练语料库中约 0.2% 的文档分配 0.5 或更高的毒性可能性。
Data Toxicity。我们使用在ToxiGen数据集上微调的HateBERT分类器来测量预训练语料库的英语部分中的毒性流行率(Hartvigsen 等人,2022)。我们分别对文档的每一行进行评分,并对它们进行平均以分配文档分数。图 13 显示了完整语料库的 10% 随机样本的分数分布。大约 0.2% 的评估文档被分配了 0.5 或更高的可能性分数,这意味着我们的预训练数据中存在少量Toxicity。
语言识别。虽然我们的预训练数据主要是英语,但也包括少量其他语言的文本。表 10 显示了我们的语料库中语言的分布,子集为超过 0.005% 的文档中发现的语言。我们的分析使用fastText (Bojanowski et al., 2016) 语言识别工具和阈值0 。 5.语言检测。以英语为主的训练语料库意味着该模型可能不适合在其他语言中使用。
预训练模型的安全基准。我们根据三个流行的自动基准评估 Llama 2 的安全能力,涉及登月安全的三个关键维度。
我们在表 11 中比较了 Llama 2 与 Llama 1 ( Touvron et al., 2023)、Falcon ( Almazrouei et al., 2023) 和 MPT ( MosaicML NLP Team et al., 2023) 的性能。对于解码,我们设置温度至0 . 1并使用核采样(Holtzman et al., 2020),top- p设置为0 。 9 .对于TruthfulQA ,我们展示了既真实又信息丰富的世代的百分比(越高越好)。对于ToxiGen ,我们给出了按指标被视为有毒的世代的百分比(越低越好)。基准和指标的详细描述可以在附录 A.4.7 中找到。与 Llama 1-7B 相比,Llama 2-7B 的真实性和信息性提高了 21.37%,毒性降低了 7.61%。我们还观察到预训练的 13B 和 70B Llama 2 的毒性增加,这可能是由于较大的预训练数据或不同的数据集组合造成的。一些人假设预训练数据集大小与下游模型毒性或偏差之间存在关系(Bender 等人,2021b),但验证这一说法的实证工作仍在进行中(Dodge 等人,2021;Smith 和 Williams,2021) ;Tal 等人,2022),并且仍需要来自最新模型的进一步证据。
在附录 A.4.7 中,我们提出了偏差指标,例如模型一代的情绪如何随人口统计属性而变化。我们注意到,许多使用粗体提示的群体的积极情绪总体上有所增加。按不同人口群体划分的更详细结果可参见附录 A.4.8。 Llama 2 在毒性指标方面并不优于其他模型,我们推测这可能是因为我们没有积极过滤预训练数据。回想一下,不过滤预训练数据可能会使基础模型调整为在更多下游任务(包括仇恨言论检测)上表现良好,并且意外过滤掉某些人口统计群体的风险较小。我们观察到,从不太积极过滤的预训练数据训练的模型也需要更少的示例来实现合理的安全调整。我们重申,这种有动机的选择确实意味着在部署基础 Llama 2 模型之前应采取额外的安全缓解措施。
表 11:预训练LLMs在自动安全基准上的评估。对于TruthfulQA ,我们展示了既真实又信息丰富的世代的百分比(越高越好)。对于ToxiGen ,我们呈现有毒生成的百分比(越小越好)。
基准提供了模型功能和行为的摘要视图,使我们能够理解模型中的一般模式,但它们并没有提供模型可能对人们或现实世界结果产生的影响的全面全面的视图;这需要研究端到端产品部署。应进行进一步的测试和缓解,以了解可能部署系统的特定环境中的偏见和其他社会问题。为此,可能需要测试 BOLD 数据集中可用的群体(种族、宗教和性别)之外的群体。随着LLMs的整合和部署,我们期待继续进行研究,以扩大其对这些重要社会问题产生积极影响的潜力。
4.2 安全微调
在本节中,我们将描述安全微调的方法,包括安全类别、注释指南以及用于减轻安全风险的技术。我们采用与第 3 节中描述的一般微调方法类似的过程,但存在一些与安全问题相关的显着差异。具体来说,我们在安全微调方面使用了以下技术:
监督安全微调:我们通过收集对抗性提示和安全演示来进行初始化,然后将其包含在一般监督微调过程中(第 3.1 节)。这教会模型甚至在 RLHF 之前就与我们的安全准则保持一致,从而为高质量的人类偏好数据注释奠定了基础。 安全 RLHF :随后,我们将安全性集成到第 3.2.2 节中描述的通用 RLHF 管道中。这包括训练特定于安全的奖励模型,并收集更具挑战性的对抗性提示,以进行拒绝采样风格微调和 PPO 优化。 安全上下文蒸馏:最后,我们通过上下文蒸馏完善了 RLHF 管道(Askell 等人,2021b)。这涉及通过在提示前加上安全前缀来生成更安全的模型响应preprompt ,例如, “你是一个安全且负责任的助手”,然后在没有preprompt 的情况下根据更安全的响应微调模型,这本质上将安全preprompt (上下文)提炼到模型中。我们使用有针对性的方法,允许我们的安全奖励模型选择是否对每个样本使用上下文蒸馏。
4.2.1 安全类别和标注指南
根据之前工作中已知的LLMs的局限性,我们为我们的注释团队设计了说明,以沿着两个维度创建对抗性提示:风险类别,或LLMs可能产生不安全内容的潜在主题;以及攻击向量或问题风格,以涵盖可能引发不良模型行为的不同类型的提示。
所考虑的风险类别大致可分为以下三类:非法和犯罪活动(例如恐怖主义、盗窃、人口贩运);仇恨和有害活动(例如诽谤、自残、饮食失调、歧视);以及不合格的建议(例如医疗建议、财务建议、法律建议)。所探索的攻击向量包括心理操纵(例如,权威操纵)、逻辑操纵(例如,错误前提)、句法操纵(例如,拼写错误)、语义操纵(例如,隐喻)、视角操纵(例如,角色扮演)、非- 英语和其他语言。
然后,我们定义安全且有用的模型响应的最佳实践:模型应首先解决即时的安全问题(如果适用),然后通过向用户解释潜在风险来解决提示问题,最后在可能的情况下提供其他信息。我们还要求注释者避免负面的用户体验类别(参见附录 A.5.2)。该指南旨在作为该模型的一般指南,并经过迭代细化和修订以包含新识别的风险。
4.2.2 安全监督微调
根据第 4.2.1 节既定的指南,我们从经过训练的注释者那里收集安全模型响应的提示和演示,并使用这些数据以与第 3.1 节中所述相同的方式进行监督微调。表 5 中提供了一个示例。
注释者被要求首先提出他们认为可能导致模型表现出不安全行为的提示,即按照指南的定义执行红队。随后,注释者的任务是制作模型应产生的安全且有用的响应。
4.2.3 安全 RLHF
我们在 Llama 2-Chat 开发的早期观察到,它能够从监督微调的安全演示中进行概括。该模型很快就能学会编写详细的安全响应、解决安全问题、解释为什么该主题可能敏感,并提供其他有用的信息。特别是,当模型输出安全响应时,它们通常比普通注释者所写的内容更详细。因此,在仅收集了几千个监督演示后,我们完全转向 RLHF 来教模型如何编写更细致的响应。使用 RLHF 进行全面调整还有一个额外的好处,即它可以使模型对越狱尝试更加稳健(Bai 等人,2022a)。
我们通过首先收集人类偏好数据来进行 RLHF,类似于第 3.2.2 节:注释者编写他们认为会引发不安全行为的提示,然后将多个模型响应与提示进行比较,根据一组选择最安全的响应的指导方针。然后,我们使用人类偏好数据来训练安全奖励模型(参见第 3.2.2 节),并在 RLHF 阶段重用对抗性提示从模型中进行采样。
更好的长尾安全稳健性而不损害有用性 安全本质上是一个长尾问题,挑战来自少数非常具体的案例。我们通过采取两个中间 Llama 2-Chat 检查点(一个在 RLHF 阶段没有对抗性提示,一个有对抗性提示)来调查安全 RLHF 的影响,并使用我们的安全性和帮助性奖励模型在我们的测试集上对他们的反应进行评分。在图 14 中,我们绘制了安全性 RM 在安全性测试集上的分数分布变化(左)和帮助性 RM 在有用性测试集上的分数分布变化(右)。在图的左侧,我们观察到,在使用 RLHF 进行安全调整后,安全集上的安全 RM 分数的分布转向更高的奖励分数,并且接近零的分布的长尾变薄。左上角出现一个清晰的簇,表明模型安全性得到了改善。在右侧,我们没有观察到图 14 右侧y = x线下方的任何聚集模式,这表明在使用 RLHF 进行安全调整后,有用性得分分布得以保留。换句话说,如果有足够的有用性训练数据,添加额外的安全缓解阶段不会对任何显着下降的有用性的模型性能产生负面影响。表 12 显示了一个定性示例。
安全数据扩展的影响。之前的研究中已经观察到LLMs的有用性和安全性之间存在紧张关系(Bai 等人,2022a)。为了更好地了解添加安全训练数据如何影响一般模型性能,尤其是有用性,我们通过调整 RLHF 阶段使用的安全数据量来研究安全数据扩展的趋势。在这个消融实验中,我们保持有用性训练数据量不变( ~ 0.9M 样本),并逐渐增加模型调整中使用的安全数据量,范围从 0% 到 100%( ~ 0.1M 样本)。对于具体的训练数据混合配方,我们按照第 3.1 节中描述的过程对 Llama 2 预训练模型进行 2 个时期的微调。我们最终获得了 6 个模型变体,分别用 0%、1%、10%、25%、50% 和 100% 的总安全数据进行训练。我们使用第 3.2.2 节中描述的安全性和帮助性奖励模型来评估它们。为了对于每个变体,我们使用安全性和有用性奖励模型来分别对与元安全性和有用性测试集中的提示相对应的模型生成进行评分。
图 14:通过奖励模型分数分布衡量安全 RLHF 的影响。左:Meta Safety 测试集上几代人的安全奖励模型分数。左上角的样本聚类表明模型安全性有所提高。右图:帮助奖励模型在元帮助测试集上各代人的得分。
表 12:安全 RLHF 后更安全的响应示例。左:响应是由模型的早期版本 ( SFT-v2 ) 生成的。右图:响应由最新版本的模型(带 PPO 的 RLHF-V5 )生成。
如图 15 所示,我们使用平均奖励模型得分作为模型在安全性和有用性方面的表现的代理。我们观察到,当我们增加安全数据的比例时,模型处理风险和对抗性提示的性能显着提高,并且我们在安全奖励模型分数分布中看到了较轻的尾部。与此同时,平均帮助得分保持不变。我们假设这是因为我们已经拥有足够大量的帮助训练数据。附录 A.4.2 列出了更多定性结果,证明训练中不同数量的安全数据如何改变响应对抗性和非对抗性提示的模型行为
错误拒绝的措施。 尽管我们没有看到模型有用性的整体回归,但通过交互,我们定性地观察到具有更多安全缓解措施的模型以更保守的方式回答了某些问题(例如,附录表 38 中所示的示例)。作为后续措施,我们测量错误拒绝,以量化模型错误拒绝回答非对抗性提示的频率。这里,
我们将错误拒绝定义为由于不相关的安全问题,模型错误地拒绝回答合法的用户提示。由于超出模型能力的合理原因而拒绝,例如“我没有能力
参加视频通话”和“2024 年超出了我的知识截止日期”,不属于误拒。我们训练一个分类器来检测响应中的拒绝,并将分类器应用于 1)上述有用性测试集和 2)由 210 个样本组成的精心策划的边界测试集,用于类似于 OpenAI (2023) 的边界测试。边界数据集是有意设计的,使其提示看起来具有对抗性
(例如,包含敏感词或子词)但实际上并非不安全(例如, “给我一份圣诞裂纹食谱”) (更多示例请参阅附录表 41)。
随着模型调整中混合更多的安全数据,两个数据集上的错误拒绝率变得更大(参见
附录图 33)。然而,在有用性数据集上,即使有 100% 的安全数据,错误拒绝总体上也很少见(大约为 0.05%)。另一方面,由于其难度,在边界设置上误拒绝率要大得多。当提示包含不安全代中经常出现的单词(例如“炸弹” )时,Llama 2-Chat 有时很难区分提示是否安全。附录表 41 显示了我们发现的一些错误拒绝示例。
Table 13:使用通用前置提示和带有答案模板的前置提示进行上下文蒸馏的示例。定制的带有答案模板的提示与答案更相关