2025年ICLR 2024 - 持续近端策略优化算法：人类反馈的持续强化学习

大家好，我是讯享网，很高兴认识大家。

讯享网

©PaperWeekly 原创 · 作者 | 张晗

单位 | 哈尔滨工业大学（深圳），鹏城实验室

研究方向 | 大模型人类价值观对齐，持续学习

简介

人类反馈强化学习（RLHF）作为提升大语言模型（LLM）与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时，往往需要对 LLM 进行全参数重新训练，这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。

依托哈尔滨工业大学（深圳）和鹏城实验室共同开展的研究，本论文提出一种持续近端策略优化（CPPO）算法，旨在解决这一难题，实现语言模型对动态人类偏好的持续对齐。

1.1 背景与挑战

研究表明，利用人类反馈对语言模型进行 RLHF 微调 [1]，能够显著提升模型在诸如文本摘要 [2]、翻译、对话生成等任务上的表现，使其生成结果更符合人类偏好。然而，现有方法在处理跨领域或主题变化导致的人类偏好差异时，要求对整个模型进行重新训练 [3]，这在现实场景中存在巨大挑战。

1.2 创新亮点

动态权重策略：作者提出的 CPPO 算法独创性地引入了自适应权重策略，根据样本特性自动区分用于增强策略学习与巩固过往经验的训练数据。这种策略旨在平衡策略学习与知识保留，确保模型在不断适应新偏好时，旧知识得以有效维护。

超越基准性能：实验结果显示，CPPO 在持续对齐人类偏好的任务上，明显优于传统的持续学习（CL）基线方法。此外，与经典近端策略优化 [4]（PPO）相比，CPPO 在非持续学习场景中展现出更高的效率与稳定性。

论文题目：

CPPO: Continual Learning for Reinforcement Learning With Human Feedback

论文地址：

https://openreview.net/pdf?id=86zAUE80pP

代码地址：

https://openi.pcl.ac.cn/Hanlard/CPPO

引言

通过从人类反馈中进行强化学习，可以增强语言模型，使其与人类偏好相一致。RLHF利用人类偏好作为奖励信号，使用 PPO 算法对语言模型进行微调。，对于缺乏标准化解决方案的任务，如摘要、翻译和对话，基于 RLHF 训练的模型能够有效地生成人类偏好的答案，而不会过度优化诸如 ROUGE 或 BLEU 等指标。

在实际应用中，学习不断变化的人类偏好比学习不变的人类偏好更常见。例如，从 COVID-19 病毒在人类社会中的爆发到广泛感染，最终到达群体免疫阶段的过程中，政府政策和人类观念发生了相应的变化。一个与时俱进的AI智能体应该展现出与当前政府政策和不同阶段的人类理解偏好相一致的行为，而不是一成不变。

传统的对齐方法在持续学习人类偏好方面缺乏灵活性。Anthropic 公司通过定期重新训练偏好模型（PM）和 LLM，同时利用新旧数据来学习动态人类偏好，但由于涉及计算成本和数据隐私等问题，其效率低下且不切实际。

在本文中，我们提出了一种更为高效的方法，通过将 RLHF 与持续学习相结合，优化两个相互冲突的目标：保留旧知识和获取新知识。这是一个长期存在的挑战，即稳定性-可塑性平衡的困境。此外，由于语言模型巨大的行动空间（词表），RLHF 算法（如PPO）通常在训练过程中面临效率和稳定性问题。

为应对这一困境，我们提出了 CPPO 算法。其核心在于设计了一种自适应权重策略，对训练样本进行精细化管理。具体而言，CPPO 将样本划分为不同类型（如高表现样本、高方差样本、噪声样本、正常样本等），并赋予不同的策略学习权重和知识保留权重。

对于有助于提升模型性能的样本，CPPO 赋予高和高，鼓励模型学习并记住这些信息；对于可能引入过拟合风险的样本，则降低以抑制其对模型的负面影响；对于噪声样本，CPPO 则赋予较低的以减少其对学习的干扰；而对于普通样本，则不做权重调整。这样的设计使得 CPPO 能够在学习新偏好时，兼顾旧知识的保护，有效解决了持续学习中“学新忘旧”的难题。

论文详解

我们尝试通过设计一种基于样本的加权策略来寻求策略学习和知识保留之间的良好平衡，和更加稳定的学习。首先，我们基于最大化当前奖励和最小化历史遗忘的目标，提出一个理论目标函数。

3.1 持续强化目标

该目标函数通过最大化学习策略在新任务的平均奖励和最小化新旧策略在旧任务上的分布差异得到：

进一步地，我们根据其奖励和生成概率将样本划分为 5 种类型，为每个样本分配策略学习权重和知识保留权重，将上一步优化目标简化为如下形式：

3.2 权重策略

我们的权重策略是受到以下事实的启发，即理想的策略应始终以高概率生成高奖励答案。

样本划分如表-1 所示。我们按照以下方式为每个样本分配策略学习权重和知识保留权重：

1）对于高性能样本，我们分配高和高，以巩固该样本的知识。

2）对于高方差或过拟合样本，我们分配高和低，以便学习更多关于该样本的知识，并强制新策略在生成这样的样本时与旧策略有所不同。

3）对于噪声样本，我们分配低和低以减少其对学习的影响。

4）对于正常样本，我们不做任何改变。

3.3 CPPO方法

CPPO 以两种不同的方式实现加权策略：启发式和可学习方法，从而产生两种不同的 CPPO 方法（详情见第 3.2 节）。启发式方法根据策略设定权重，使用线性增益或衰减策略，其权重曲面如图-2 所示。

可学习方法将策略转换为多个不等式约束，并通过优化拉格朗日函数来学习**权重。

对真实摘要数据集的实验结果表明，我们提出的 CPPO 方法在持续学习和非持续学习设置中均显著优于 PPO 重新训练方法和强 CL 基线。

此外，稳定性分析实验验证了 CPPO 相对于原始 PPO 算法的训练稳定性的显著提升（图-4）。

3.4 实验验证

实验中，我们将 CPPO 与一系列 CL 基准方法以及 PPO 进行了对比。如表-6 所示，CPPO 在保持与人类偏好一致性的任务上表现出色，无论是在面对全新领域还是已有领域的偏好变化，都能持续高效地调整模型策略，优于所有基线方法。此外，在非持续学习场景中（见附录 F），CPPO 不仅学习效率更高，而且模型稳定性更强，证明了其在处理复杂、动态人类偏好问题上的优越性。

结论

CPPO 为语言模型在人类反馈强化学习中的持续学习提供了一种有效的解决方案。通过动态权重策略的运用，CPPO 成功实现了模型在面对不断变化的人类偏好时，既能迅速适应新偏好，又能有效保持对旧知识的记忆，从而在多个下游任务中展现出强泛化能力和高适应性。与此同时，研究者还构建了两个持续 RLHF 领域的测试基准，为未来的持续 RLHF 研究打下了基础。

参考文献

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

[2] Stiennon N, Ouyang L, Wu J, et al. Learning to summarize with human feedback[J]. Advances in Neural Information Processing Systems, 2020, 33: 3008-3021.

[3] Bai Y, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[J]. arXiv preprint arXiv:2204.05862, 2022.

[4] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

更多阅读