深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大语言模型中的基本框架，并深入分析了 PPO 算法的内部机制，特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。

现在，复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。

Secrets of RLHF in Large Language Models Part I: PPO 论文链接：https://arxiv.org/pdf/2307.04964.pdf
Secrets of RLHF in Large Language Models Part II: Reward Modeling 论文链接：https://arxiv.org/abs/2401.06080

复旦团队究竟做了什么？

随着 ChatGPT、GPT-4 等大型语言模型的技术创新和广泛应用，这些模型已成为当下的技术热点，革新了我们与机器互动的方式，为各行各业提供了前所未有的模型支持。这些模型在解决复杂问题、自动生成内容和理解复杂指令方面展现出巨大价值。然而这些模型在在对齐人类价值观和偏好方面，仍有所局限。OpenAI、Anthropic 等研究团队对此的应对策略是深入研究基于人类反馈的强化学习（RLHF），目标是使 AI 系统在价值观上与人类更加一致。

OpenAI 的超级对齐、过程监督和 Anthropic 的宪法式 AI 等最新研究，都进一步强调了 AI 对齐的重要性。这些概念不仅关注于如何让 AI 回答更加符合人类的文化和审美标准，而且还关注于如何让 AI 在更广泛的伦理和价值观层面与人类保持一致。这些进展不仅展示了科学上的挑战，也体现了哲学上的探索。它们在确保 AI 的目标与人类社会真正对齐的过程中起到了关键作用，对未来人类文明的发展至关重要。

为了使大模型与人类的偏好对齐，RLHF 通过奖励模型（reward model）学习人类的偏好。好的奖励模型能够反映人类的偏好和价值目标，指引大模型充分发挥自身的能力造福社会；反之，坏的奖励模型则歪曲误解人类的偏好，误导大模型滑向不被人类理解和接纳的深渊。因此，奖励模型的设计和实施对于大型语言模型的发展至关重要。

在研究过程中复旦团队曾发现一个有趣的现象，如果按照特定方式选择 hh-rlhf 数据集（Anthropic 公开的有用和无害的人类偏好数据集）中的 70% 数据用于训练奖励模型，这个奖励模型用于 PPO 阶段训练将导致模型无论输入任何内容都只会回复「免责声明」：

这种现象是 hh-rlhf 数据集中存在大量冲突、模糊数据的结果，这样的冲突会导致奖励模型无法准确反映人类的偏好，语言模型无法捕捉到一致的奖惩，便采用这种万金油策略来应对奖励模型。而复旦团队所做的第一个工作便是揭露了 hh-rlhf 数据集中存在大量噪音数据的现象。通过去除数据集中的噪音，可以使得模型更加贴合人类的喜好。正如下述例子中所看到的：

除了构造出对于训练 RM 来说更加优质的数据，还可以从 RM 本身出发，适当改变 RM 的选择策略等，使得 RM 变的更好，进而使得 LLM 能够更贴切人类的喜好，这便是复旦团队所做的第二个工作。团队提出了使用对比学习、元学习的方式，很大程度提高了 RM 对于数据好坏的甄别的能力，RM 的改进直接使得 LLM 变得更加符合人类的需求。

通过对比学习后的 RM 能够指导 LLM 回答问题更加精确，更符合人类价值观偏好。比如在遇到有害问题时，优化前的 LLM 只会拒绝回答问题，但是优化后的 RM 能够更具体的回答有害的地方，给出更符合人类价值观的回答，正如下述例子所看到的：

上述例子中优化前的 LLM 没有按照用户的指示回答问题，而是说它不能理解或回答问题，这是不准确的，因为作为人工智能，它能够理解并根据输入生成语言。这个回答不能解决用户的问题，也没有帮助。另一方面，对比学习优化后的 LLM 选择不提供表示笨的词语，相反，它通过强调支持孩子的重要性并认识到他们独特的优势和劣势，提供了一种建设性的方法。这种回应是有帮助的，因为它将对话转向了一种积极和支持儿童发展的方法，这比提供负面标签更有益，危害更小，更符合人类价值观的对齐。

同时复旦团队的研究进一步提升了语言模型在面对不同数据分布的同一任务时的表现，确保了模型能够在相同任务不同数据分布的情况下，也能准确把握和遵循人类价值观，提高了语言模型的泛化能力。

通过 RLHF 的应用，我们可以对模型的输出进行细致的调整，引导模型以更符合人类喜好和期望的方式作出反应。例如，未经 RLHF 优化的模型可能提供的回答简单直接，可能缺乏文艺气息；而经过 RLHF 优化的模型则能提供更加典雅、有文学感的回答。正如下述对比的例子所看到的那样，第一条回答略显生硬，更谈不上「信达雅」，第二条回答却明显更文学气息，更耐人寻味。通过 RLHF，大模型从从生硬的「机言」跨越到多情的「人语」。

深化 RLHF：奖励模型在大语言模型中的关键作用与挑战

在复旦团队的技术报告中，他们深入探索了 Reinforcement learning from human feedback（RLHF）这一技术。此技术对于使语言模型更好地与人类价值观和意图对齐，产生更有帮助和更无害的回应具有重要意义。同时报告指出了在实际应用中奖励模型所面临的挑战，包括数据集中固有的不正确和模糊的偏好数据，以及奖励模型在特定数据分布上训练时的泛化困难。

为了应对这些挑战，复旦团队从数据和算法两个角度进行了深入研究。在数据方面，通过多个奖励模型的一致性结果来量化偏好的强度，并分析了不同强度偏好数据奖励模型性能的影响。在算法方面，团队探索了如何学习泛化特征以区分选择和拒绝的回应，并利用元学习来促进奖励模型对于超出分布（OOD）数据的泛化能力，以及迭代 RLHF 优化。奖励模型被训练成为人类偏好的代理，但在准确反映人类偏好方面面临着诸多挑战。

此外，复旦团队还开源了包含偏好强度注释的 anthropic-hh 数据集，并使用 GPT-4 标记了验证集。本技术报告所使用的训练代码在项目网站提供。这些研究和开发不仅为 AI 技术树立了新的里程碑，也为未来的研究和应用开辟了新的道路，进一步提升了语言模型的响应质量和适应性。通过这些工作，团队更加深化了对 RLHF 的理解，并为大语言模型的优化开创了新篇章。

项目地址：https://github.com/OpenLMLab/MOSS-RLHF

数据影响力：塑造人类偏好模型的关键因素

复旦团队探索了人类偏好数据的固有噪声问题，并重点研究了偏好强度对奖励模型表现的影响。通过分析不同强度偏好数据对模型性能的影响，团队提出了新的奖励模型方法，以更准确地建模偏好。实验显示，通过这种方法，能够更有效地辨别正确和错误的偏好标注，并提升模型的整体性能。

在这部分中，报告深入探讨了数据如何影响对人类偏好的建模。

通过随机初始化若干奖励模型，训练后在数据集上评估得到对数据集中比较对的细粒度打分，研究团队量化了每个比较对的偏好强度，并分析了不同强度偏好数据对奖励模型性能的影响。上图中展示的是测试集上偏好强度的分布情况，注意到数据集中大约 25% 的数据的偏好强度小于零，并且有很多数据的偏好强度在 0 附近，意味着可能存在不正确的数据偏好标注和低差异的数据。从数据集中抽取了一些真实存在的样本如下：

数据示例一：标签错误（harmful）

chosen 标签对应的回复包含了剥夺人类睡眠的方法，而 rejected 标签对应的回复拒绝了这种对人类有害的回答。从无害性角度来说，rejected 的回复是更安全、更符合人类偏好的。而模型评估 chosen 与 rejected 的平均得分差异（即偏好强度）为 - 6.23，表示更偏好 rejected 回复，这与人类价值偏好一致。

数据示例一：标签错误（helpful）

chosen 拒绝回复，rejected 给出了比较详细的解释。从有用性的角度来说，rejected 标签对应的回答是我们更希望看到的。而模型评估 chosen 与 rejected 的平均得分差异为 - 5.85，表现出对 rejected 数据的偏好，与人类价值偏好一致。

数据示例二：低差异

对于上述 chosen 和 rejected 对应的回复，差异不大。模型评估 chosen 与 rejected 的平均得分差异为 - 0.0007，表示模型认为这两个回复差别不大，符合人类价值判断。

在复旦团队的技术报告中提供了一个关于偏好强度的细致分析（如下左图所示）。

将数据集按照偏好强度从小到大排序，等分成若干组分别计算组内数据的统计信息。可以看出，偏好差异的均值在不同数据组中表现出显著的差异。这反映了数据中存在的不同偏好强度，从几乎无差异到显著差异的偏好都有所体现。同时，偏好差异的标准差显示出一种 U 形模式，这意味着在偏好非常明显或非常不明显的情况下，模型在评估偏好时的不确定性增加。

此外，团队使用 GPT-4 对测试集进行标注，衡量提出的偏好强度量化指标与 GPT4 评估的一致性。

团队发现平均偏好差异与 GPT-4 一致性很高（如下右图所示）。这说明偏好强度指标一定程度上反映了真实世界的人类价值偏好。

这一发现为我们提供了深入理解奖励模型处理不同类型偏好数据的能力，并指出了优化模型时需要考虑的关键方面。通过对偏好差异的这种细致分析，我们能更好地调整奖励模型，以提高其在处理复杂偏好情境时的准确性和鲁棒性。

复旦团队进一步考虑在奖励模型训练过程中对于不同类型的偏好数据施加不同的处理，以及如何通过调整方法来优化模型性能。例如，团队深入分析了不同类型数据对奖励模型的影响，通过识别噪音数据并进行矫正操作（如：标签反转等），发现对偏好强度最低的 10% 样本单独训练，其在测试集上的正确率低于 35%，但是如果将其标签反转，正确率可以接近 65%。

实验表明，对数据集中特定部分进行细致处理，可以显著提高奖励模型在理解复杂人类偏好方面的性能。

在研究中，复旦团队探索了四种去噪方法（flip、margin、soft label 等）来提升奖励模型的性能，它们在实际测试中都显示出了相对于原始方法的改进。团队构造了三个测试集，分别是原始测试集、GPT4 清洗后的测试集以及 GPT4 与原始测试集保持一致的测试子集。这些方法的训练过程如下图中所示。实验显示，原始方法在训练过程中在会有明显的精度下滑，表明了原始数据集存在噪声，会导致训练过拟合。而相比较来说，四种去噪方法在所有测试集上能够保持稳定的精度，表现出比原始方法整体更好的性能。

复旦团队使用 PPO 方法，利用上述四种方法和原始方法训练得到的奖励模型微调 SFT 模型，下图反映了 PPO 训练过程中各项指标的变化情况，注意到 KL 散度和 PPL 指标显示去噪方法能够提供更稳定的 PPO 训练过程。

复旦团队利用 GPT-4-turbo 评估了不同方法经过 PPO 训练得到的语言模型相比较于原始方法的输出质量，特别是在有害提示下的表现，复旦团队的方法显示出了显著的改善。这可能归因于处理有害提示相关的偏好数据中的噪声数据时去噪的有效性。

这些实验成果为如何更好地建模人类偏好提供了新的视角，并指出了未来研究的方向。

对比学习：奖励模型的新视角

在传统的奖励建模中，一个重大挑战是模型通常在「chosen」和「rejected」样本之间表现出高度的特征相似性，如上图所示，通过 t-SNE 获得的特征分布显示，在基线模型中，「chosen」和「rejected」样本特征分布有显著的重叠。这表明模型无法捕捉固有的细微差异以及数据上的区别。缺乏这样的辨别能力可能会导致表现不佳，因为模型可能很难有效地了解是什么使特定行为或结果变得更好或不更好。

相比之下，对比学习有一些先天的优势：1）有效的特征提取：对比学习通过比较相似和不相似的样本来训练模型，这有助于模型更有效地学习数据中的独特特征。2）强大的泛化能力：通过学习区分不同的样本，使用对比学习训练的模型通常表现出更好的泛化能力，使它们能够更有效地处理新的、看不见的数据。

在 RLHF 的背景下，将对比学习整合到偏好建模中需要仔细对比数据的构造。常有的两种方法则是：① 「chosen」数据和「rejected」数据的差异对比 ②「chosen」数据和「rejected」数据的直接对比。

这两种方法都有其优点和局限性。如果目标是使模型能够更精确地识别和奖励表现明显优于坏数据的好数据，那么第一种方法可能更合适，它允许模型学习区分喜欢和不喜欢。然而，如果目标是增强模型的泛化能力并使其能够有效地区分各种数据，那么第二种方法可能更理想，它使模型能够通过区分选择和拒绝的反应来推断偏好。在实践中，还可以考虑将这两种方法结合起来以获得更好的建模结果。

复旦团队基于已有的两种对比学习方法来探究对比学习在奖励模型中能否区分出数据的差异性。

首先是 SwAV（Swapping Assignments between Views）：SwAV 是一种创新的无监督视觉特征学习方法，与传统的对比学习方法不同，它在同时对数据进行聚类的同时，确保了对同一图像不同增强（或「视图」）的聚类分配的一致性。该方法包括创建图像的多个视图，预测每个视图的聚类分配，然后使用交换机制来匹配一个视图的聚类分配与另一个视图的预测。这种方法提高了学习效率，避免了比较每一对可能的图像，从而降低了计算成本。

其次是 SimCSE（Simple Contrastive Learning of Sentence Embeddings）：SimCSE 是一种利用对比学习来学习句子嵌入的技术。它通过使用相同的句子作为正样本，将它们输入到基于 Transformer 的模型（如 BERT）中以生成嵌入。关键之处在于，相同的句子在不同的 dropout 掩码下进行建模，从而产生了嵌入的变化。负样本则来自不同的句子，使得能够高效而有效地学习句子表示，而无需复杂的数据增强或外部标记数据。

如上图所示，当在奖励模型中引入 SimCSE 后，通过 t-SNE 获得的特征分布显示，选择和拒绝响应之间的特征分布重叠减少了。

复旦团队还利用 GPT-4-turbo 评估了不同方法相比较于基线模型 (普通 PPO 和 SFT 模型) 的输出质量，如下图所示，在有用性和无害性上，模型性能都有一定的提升，表明对比学习确实可以通过让奖励模型增强区分数据之间的差异性的能力来改善模型的能力。

MetaRM：引领奖励模型的未来

复旦团队所提出的目标是，当策略模型的分布随着 PPO 训练而变化时，奖励模型仍应保持对从新分布中采样的响应的区分度。

在本节中，复旦团队提出了 MetaRM，一种通过元学习将原始偏好数据与移位分布对齐的方法。MetaRM 的关键思想是：奖励模型的训练阶段应该最小化原始偏好数据的损失，同时最大化从转移的策略分布中采样的响应之间的差异。

MetaRM 的实现依靠四个关键步骤：首先，计算差异损失来评估策略变化后响应的差异；其次，根据梯度上升方向调整奖励模型参数；接着，使用更新后的参数计算原始偏好对的普通损失；最后，优化原始参数，以沿着梯度下降方向进行调整。总体来说，MetaRM 通过元学习过程调整奖励模型，确保模型在面对策略分布的演变时，仍能够识别和奖励高质量的响应。

总之，MetaRM 的方法是使用元学习训练奖励模型，即使在策略模型的分布发生变化时，也能够识别出质量响应，确保响应仍与原始偏好对齐。

Main Results：实验结果深度剖析 RLHF

内部任务评估

在上表中，展示了与 SFT 模型响应相比，复旦团队所提出方法的获胜、平局和失败比例。回合数代表相应回合的模型生成的响应。

此外，为了更全面地展示复旦团队所提出方法的优越性，表格 3 中展示了与其它基线（包括普通 PPO）对比的最佳性能，还提供了对 GPT-4 和人类评估的评估结果。

外部任务评估

如图所示，即使在 OOD 情景下，复旦团队所提出的方法仍然优于基线。这表明该方法可以在新领域实现对齐，而无需昂贵的偏好标记一组查询，从而显著降低了 RM 培训的培训成本。此外，团队观察到与内部分布评估结果相比，他们所提出的方法在获胜率上略有下降。

总结：深度剖析奖励模型推动 RLHF 新发展

在这篇技术报告中，复旦团队全面审视了强化学习与人类反馈（RLHF）在大语言模型中的应用，并提出了创新的奖励模型方法。团队的研究不仅解决了数据集中存在的不正确和模糊偏好问题，还提高了模型对于新场景的泛化能力。通过复旦团队所提出的方法，语言模型能够更准确地理解和符合人类的意图和价值观，从而产生更有帮助和更安全的回应。复旦团队的工作不仅推动了 RLHF 技术的发展，也为未来的研究者和开发者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference

几千年来，语言一直是连接人类文明的纽带。每一种语言都是一个独特的文化世界，充满着细腻的情感和深厚的历史。在这个数字时代，我们试图通过机器翻译来跨越语言障碍，但仅仅依靠字面意思的翻译往往无法传达语言的真正魅力。就像生活在一个五彩斑斓的世界里，却只能看到黑白的世界。幸运的是，RLHF 在模拟人类偏好方面不仅限于安全和道德；它还可以用来满足人们对高质量翻译的偏好。为了实现这一目标，复旦团队监督微调 LLaMA-7b 模型，赋予其基本翻译功能，然后利用奖励模型来学习人类翻译偏好。最后，复旦团队通过 PPO 算法优化翻译模型，使其生成更符合忠实、表达、优雅偏好的翻译。

以上三个英汉翻译的例子生动地说明了翻译不仅仅是语言的转换，更是文化和情感的传递。在复旦团队技术报告的下一部分中，将努力探索如何将人类偏好和文化理解有效地融入到机器翻译系统中。通过实验和数据分析，期望开发出一种不仅精确而且富有情感深度和文化敏感性的翻译模型。这样的模式不仅可以提高翻译的准确性，而且可以促进不同文化之间的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.”

— Steve Jobs

人工智能代理生成代码的过程比最初看起来更加复杂。编程是一门与自然语言的复杂性和可变性相似的学科，提供了多种可能性。然而，如此广泛的选择范围，与稀疏奖励信号的问题并列时，极大地限制了智能体的探索能力。因此，关键的挑战在于在复杂任务的背景下制定稳健有效的探索策略，这是当前研究中尚未解决的问题。未来，复旦团队将进一步阐述人工智能代理如何充分探索代码合成任务。