博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,深受读者好评。

📌 专栏导航

  • 人工智能前沿知识(已更201篇):深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体(Agent)技术,系统性解析AI核心技术体系与前沿趋势。
  • Python基础小白编程(已更232篇):从零开始,以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法,配有大量实战代码与避坑指南,真正做到学以致用。
  • 机器学习与深度学习(125篇):系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践,覆盖从公式推导到代码实现的全链路内容。
  • 音频、图像与视频处理理论与实战(81篇):涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术,从基础操作到高级应用一应俱全。
  • UI窗体程序设计实战(78篇):深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧,提供从配置到编码的完整解决方案。
    智算菩萨,以代码为经,以算法为纬,在人工智能的星辰大海中,做你前行路上最可靠的导航者。本人最常用AI工具为AIGCBAR

摘要

本文是对 OpenAI 于 2022 年 3 月发表在 arXiv 上的论文《Training language models to follow instructions with human feedback》(Ouyang 等,arXiv:2203.02155)的系统性精读。该论文是 ChatGPT 技术路线的直接前身,首次将"基于人类反馈的强化学习"(Reinforcement Learning from Human Feedback,RLHF)完整地应用于生产级大语言模型的对齐工程,提出了广为人知的 InstructGPT 模型族。论文的核心论断是:单纯扩大语言模型的参数规模并不能使其更好地遵循用户意图,而通过"监督微调—奖励建模—近端策略优化"三阶段流程,仅 13 亿参数的 InstructGPT 模型即可在偏好评测上全面超越 1750 亿参数的原始 GPT-3。本文在忠实翻译与解读原文献的基础上,系统补充了自回归语言模型、策略梯度、TRPO/PPO、Bradley-Terry 偏好模型、KL 散度惩罚等基础理论,力求让读者既理解 InstructGPT 的工程实现,也理解其背后的数学原理与对齐哲学。全文共分七章,涵盖引言、理论基础、三阶段方法论、数据与标注体系、评估与实验结果、讨论与启示、局限与展望,并配有多个对照表格与公式推导。


1 引言:大语言模型的对齐困境

1.1 语言模型规模化的内在局限

自 2018 年 GPT 系列问世以来,"扩大规模"几乎成为提升语言模型能力的唯一显学。从 GPT-1 的 1.17 亿参数,到 GPT-2 的 15 亿参数,再到 GPT-3 的 1750 亿参数,参数量在四年间增长了上千倍;与此同时,训练数据从 WebText 的几 GB 扩展到 Common Crawl 的数百 TB,训练算力从几个 GPU-日跃升到数千 GPU-日。这种"暴力美学"确实带来了令人惊叹的涌现能力:少样本学习、代码生成、跨语言迁移、链式推理等能力在模型规模跨越某个阈值后突然出现。然而,论文开篇即指出一个被业界长期忽视的事实——“Making language models bigger does not inherently make them better at following a user’s intent”(让语言模型变得更大,并不能本质上让它更好地遵循用户意图)。

这一论断的背后存在一个深刻的认知错位。语言模型的预训练目标是"在给定上文条件下预测下一个词",这是一个关于互联网文本分布的统计建模目标;而用户在使用模型时希望它完成的,是"理解指令、给出有用、诚实、无害的回答"这一关于人类意图的对齐目标。两者之间存在三重鸿沟:第一,预训练目标优化的是 likelihood,而用户关心的是有用性,二者并不等价;第二,互联网文本中充斥着事实错误、有毒言论、偏见与虚构内容,模型在模仿这些数据时不可避免地会复现这些问题;第三,预训练数据中"指令—回答"这种结构化对偶样本占比极低,模型并未被显式训练去"听从"指令。因此,单纯扩大规模只会让模型更擅长"续写互联网风格的文本",而不会让它更擅长"做一个有用的助手"。

论文用一个生动的例子说明了这一困境。当用户向 GPT-3 输入"Why is it important to eat socks after meditating?“(为什么冥想后吃袜子很重要?)这样一个含有错误前提的提问时,1750 亿参数的 GPT-3 不仅没有指出问题本身的不合理,反而一本正经地"续写"出"When you eat socks, you are tasting the essence of enlightenment”(吃袜子时你品尝的是觉悟的本质)这样荒诞不经的内容。这种"幻觉式续写"正是预训练目标与用户意图错位的典型表现:模型把提问当成了需要被续写的文本片段,而不是需要被批判性审视的指令。

1.2 对齐问题的提出与三种路径

上述困境在人工智能安全研究中被称为"对齐问题"(alignment problem),即如何使 AI 系统的行为与人类的意图、价值观和利益保持一致。对齐问题并非大语言模型时代才出现的新课题,它在强化学习智能体、推荐系统、自动驾驶等领域早已存在,但在大模型时代变得尤为紧迫,原因在于:模型能力越强,错位行为造成的危害就越大;而模型规模越大,错位就越难通过人工规则来纠正。

在论文写作时点(2022 年初),业界探索对齐问题的路径大致可分为三类。第一类是基于规则与约束的方法,即通过关键词过滤、内容分类器、安全模板等手段在推理阶段拦截有害输出。这类方法实现简单但覆盖面有限,且容易被对抗性输入绕过,更关键的是它无法让模型"主动理解"什么是有用的回答。第二类是基于公开 NLP 数据集的指令微调,代表性工作包括 FLAN(Wei 等,2021)和 T0(Sanh 等,2021),它们将大量公开任务统一为指令格式进行多任务微调。这类方法提升了模型在标准 NLP 任务上的零样本表现,但论文实验表明,公开数据集的任务分布与真实用户需求分布存在显著偏差——分类与问答仅占 API 真实使用的约 18%,而开放式生成与头脑风暴却占 57%。第三类,也是本文所采用的路径,是基于人类反馈的强化学习(RLHF)。其核心思想是:不再试图用规则或固定数据集去"教"模型什么是对的,而是让人类标注员直接对模型输出进行偏好判断,再用这些偏好信号训练一个奖励模型,最后用强化学习算法优化语言模型策略以最大化该奖励。

RLHF 路径的优势在于三点:首先,它直接建模人类偏好,而非依赖代理指标或固定任务,因此能覆盖开放式生成这类难以用自动指标评估的任务;其次,它通过奖励模型将稀疏的人类反馈转化为密集的标量信号,使得强化学习成为可能;最后,它允许在不重新预训练的前提下,通过相对低成本的微调显著改善模型行为,论文估算其所需算力仅为预训练的极小部分。正是这些优势,使 RLHF 成为 InstructGPT 乃至后来 ChatGPT 的核心技术路线。

1.3 InstructGPT 的核心贡献

论文的核心贡献可以概括为以下五个方面,它们共同构成了从"原始 GPT-3"到"可用助手"的完整技术桥梁。

第一,论文提出并工程化了一套三阶段对齐流程:监督微调(Supervised Fine-Tuning,SFT)→ 奖励模型(Reward Model,RM)训练 → 近端策略优化(Proximal Policy Optimization,PPO)强化学习。这一流程并非论文首创,其雏形可追溯至 Ziegler 等(2019)和 Stiennon 等(2020)在风格续写与摘要任务上的工作,但 InstructGPT 首次将其扩展到覆盖生成、问答、头脑风暴、改写、摘要、分类等十余类任务的通用指令分布上,并验证了其在生产环境中的可行性。

第二,论文通过大规模人类偏好评测证明,13 亿参数的 InstructGPT(PPO 微调后)的输出,在用户偏好上被 1750 亿参数的 GPT-3 更受青睐——具体而言,标注员在 1750 亿参数规模上偏好 InstructGPT 输出的比例约为 85%,在所有规模上平均约为 71%。这一结果颠覆了"参数规模即一切"的迷思,表明在当前能力水平下,对齐投资的边际收益远高于规模扩张。

第三,论文系统性地将对齐目标分解为三个维度——有用性(helpfulness)、诚实性(truthfulness)和无害性(harmlessness),并设计了相应的评测协议。这一"3H"框架后来成为对齐研究的标准术语,深刻影响了后续的 Constitutional AI、RLAIF 等工作。

第四,论文发现并定量分析了"对齐税"(alignment tax)现象,即 RLHF 微调会导致模型在部分标准 NLP 任务上性能退化,并提出了通过混合预训练梯度更新(PPO-ptx)来缓解该问题的方案。这一发现对工程实践意义重大,因为它意味着对齐并非"免费的午餐",需要在有用性与能力保持之间寻找平衡。

第五,论文坦诚地讨论了方法的多重局限,包括标注人群体的代表性不足、模型仍会生成有毒内容、对有害指令缺乏拒绝能力等,并提出了对抗性数据收集、与真实性增强方法(如 WebGPT)结合等未来方向。这种"既报告成功也报告失败"的科研态度,为后续对齐研究树立了重要范式。
在这里插入图片描述

[Figure 1:GPT-3 与 InstructGPT 在"吃袜子"问题上的输出对比]


2 理论基础与相关工作

2.1 大语言模型与自回归预训练

要理解 InstructGPT 的对齐流程,首先需要理解其起点——预训练语言模型。现代大语言模型几乎都采用自回归(autoregressive)架构,即通过链式分解联合概率来建模文本序列。给定一个由词元(token)序列 x 1 , x 2 , … , x T x_1, x_2, \ldots, x_T x1,x2,,xT 组成的文本,其联合概率可分解为:

P ( x 1 , x 2 , … , x T ) = ∏ t = 1 T P ( x t ∣ x 1 , x 2 , … , x t − 1 ) P(x_1, x_2, \ldots, x_T) = \prod_{t=1}^{T} P(x_t \mid x_1, x_2, \ldots, x_{t-1}) P(x1,x2,,xT)=t=1TP(xtx1,x2,,xt1)

这一分解利用了概率的链式法则,将一个高维联合分布的建模问题转化为一系列条件分布的建模问题。每个条件分布 P ( x t ∣ x < t ) P(x_t \mid x_{<t}) P(xtx<t) 由一个参数化的神经网络给出,在 GPT 系列中该网络是 Decoder-only 的 Transformer。Transformer 的核心是自注意力机制(self-attention),它允许每个位置在预测时关注上文所有位置,从而捕获长程依赖关系。预训练的目标是最小化负对数似然:

L pretrain ( θ ) = − E x ∼ D pretrain [ ∑ t = 1 T log ⁡ P θ ( x t ∣ x < t ) ] \mathcal{L}_{\text{pretrain}}(\theta) = -\mathbb{E}_{x \sim \mathcal{D}_{\text{pretrain}}} \left[ \sum_{t=1}^{T} \log P_\theta(x_t \mid x_{<t}) \right] Lpretrain(θ)=ExDpretrain[t=1TlogPθ(xtx<t)]

其中 θ \theta θ 是模型参数, D pretrain \mathcal{D}_{\text{pretrain}} Dpretrain 是预训练数据分布(通常是大规模互联网文本)。这一目标本质上是最大似然估计,它让模型学会"在给定上文条件下,下一个词最可能是什么"。GPT-3 正是在约 3000 亿词元的过滤互联网文本上,用这一目标训练得到的 1750 亿参数模型。

然而,最大似然目标与"遵循指令"之间存在根本性错位。最大似然优化的是"生成与训练分布相似的文本",而遵循指令要求的是"生成满足用户特定需求的文本"。当用户输入一个指令时,模型并非在"回答问题",而是在"续写一段以该指令为开头的文本"——如果训练数据中类似的指令后面常跟着不相关或低质量的内容,模型就会忠实地复现这种模式。这正是 GPT-3 在面对指令时表现不佳的根本原因,也是 InstructGPT 需要通过微调来弥合的鸿沟。

2.2 强化学习核心概念回顾

InstructGPT 的第三阶段采用了强化学习,因此有必要回顾强化学习的基本框架。强化学习问题通常被形式化为马尔可夫决策过程(Markov Decision Process,MDP),由五元组 ( S , A , P , R , γ ) (\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma) (S,A,P,R,γ) 描述: S \mathcal{S} S 是状态空间, A \mathcal{A} A 是动作空间, P ( s ′ ∣ s , a ) \mathcal{P}(s' \mid s, a) P(ss,a) 是状态转移概率, R ( s , a ) \mathcal{R}(s, a) R(s,a) 是奖励函数, γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1) 是折扣因子。智能体(agent)在每个状态 s t s_t st 选择动作 a t a_t at,环境根据转移概率进入新状态 s t + 1 s_{t+1} st+1 并给出奖励 r t r_t rt,智能体的目标是最大化累积折扣回报:

J ( π ) = E τ ∼ π [ ∑ t = 0 ∞ γ t r t ] J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] J(π)=Eτπ[t=0γtrt]

其中 π ( a ∣ s ) \pi(a \mid s) π(as) 是策略,即在每个状态下选择动作的概率分布, τ = ( s 0 , a 0 , r 0 , s 1 , … ) \tau = (s_0, a_0, r_0, s_1, \ldots) τ=(s0,a0,r0,s1,) 是一条轨迹。

在 InstructGPT 的设定中,强化学习的要素映射如下:状态 s t s_t st 是"已生成的词元前缀"(即提示加上已生成的部分回答),动作 a t a_t at 是"下一个要生成的词元",策略 π \pi π 就是语言模型本身——它给出在每个前缀下选择各词元的概率分布。奖励并非在每个词元上给出,而是在整个回答生成完毕后由奖励模型给出一个标量奖励 r r r,这种"稀疏奖励"设定是文本生成任务与典型强化学习任务的重要区别。状态转移是确定性的——一旦选择了词元,新状态就是原前缀加上该词元,没有环境的不确定性。

策略梯度方法是强化学习中优化参数化策略的主流方法之一。其核心思想是直接对策略参数 ϕ \phi ϕ 求梯度以最大化期望回报。根据策略梯度定理,目标函数的梯度可表示为:

∇ ϕ J ( π ϕ ) = E τ ∼ π ϕ [ ∑ t = 0 T ∇ ϕ log ⁡ π ϕ ( a t ∣ s t ) ⋅ A π ϕ ( s t , a t ) ] \nabla_\phi J(\pi_\phi) = \mathbb{E}_{\tau \sim \pi_\phi} \left[ \sum_{t=0}^{T} \nabla_\phi \log \pi_\phi(a_t \mid s_t) \cdot A^{\pi_\phi}(s_t, a_t) \right] ϕJ(πϕ)=Eτπϕ[t=0Tϕlogπϕ(atst)Aπϕ(st,at)]

其中 A π ϕ ( s t , a t ) A^{\pi_\phi}(s_t, a_t) Aπϕ(st,at) 是优势函数(advantage function),衡量动作 a t a_t at 相对于策略平均水平的好坏程度。直观上,这一梯度让"在优势为正的状态-动作对上"增加策略概率,在"优势为负的状态-动作对上"降低策略概率。然而,朴素策略梯度存在方差大、样本效率低、训练不稳定等问题,这促使了 TRPO 和 PPO 等改进算法的提出。

2.3 从 TRPO 到 PPO:近端策略优化的演进

信任域策略优化(Trust Region Policy Optimization,TRPO)由 Schulman 等(2015)提出,其核心思想是通过限制新旧策略之间的 KL 散度来保证每次更新的"步幅"不会过大,从而避免策略崩溃。TRPO 的优化目标是在 KL 散度约束下最大化期望回报:

max ⁡ ϕ    E s ∼ ρ π old [ π ϕ ( a ∣ s ) π old ( a ∣ s ) A π old ( s , a ) ] s.t. E s ∼ ρ π old [ D KL ( π old ( ⋅ ∣ s ) ∥ π ϕ ( ⋅ ∣ s ) ) ] ≤ δ \max_\phi \; \mathbb{E}_{s \sim \rho_{\pi_{\text{old}}}} \left[ \frac{\pi_\phi(a \mid s)}{\pi_{\text{old}}(a \mid s)} A^{\pi_{\text{old}}}(s, a) \right] \quad \text{s.t.} \quad \mathbb{E}_{s \sim \rho_{\pi_{\text{old}}}} \left[ D_{\text{KL}}(\pi_{\text{old}}(\cdot \mid s) \| \pi_\phi(\cdot \mid s)) \right] \leq \delta ϕmaxEsρπold[πold(as)πϕ(as)Aπold(s,a)]s.t.Esρπold[DKL(πold(s)πϕ(s))]δ

其中 π ϕ ( a ∣ s ) π old ( a ∣ s ) \frac{\pi_\phi(a \mid s)}{\pi_{\text{old}}(a \mid s)} πold(as)πϕ(as) 称为重要性采样比(importance sampling ratio), δ \delta δ 是 KL 散度的上界。TRPO 通过求解这一带约束的优化问题来更新策略,理论上保证了策略的单调改进。然而,TRPO 需要计算 Fisher 信息矩阵的逆并进行共轭梯度求解,工程实现复杂且计算开销大。

近端策略优化(Proximal Policy Optimization,PPO)由 Schulman 等(2017)提出,旨在以更简单高效的方式实现 TRPO 的核心思想——限制策略更新幅度。PPO 有多种变体,其中最常用的是 PPO-Clip,它通过一个裁剪的目标函数来替代 TRPO 的 KL 约束:

L CLIP ( ϕ ) = E ( s , a ) ∼ π old [ min ⁡ ( r t ( ϕ ) A t ,    clip ( r t ( ϕ ) , 1 − ϵ , 1 + ϵ ) A t ) ] \mathcal{L}^{\text{CLIP}}(\phi) = \mathbb{E}_{(s,a) \sim \pi_{\text{old}}} \left[ \min\left( r_t(\phi) A_t, \; \text{clip}(r_t(\phi), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(ϕ)=E(s,a)πold[min(rt(ϕ)At,clip(rt(ϕ),1ϵ,1+ϵ)At)]

其中 r t ( ϕ ) = π ϕ ( a t ∣ s t ) π old ( a t ∣ s t ) r_t(\phi) = \frac{\pi_\phi(a_t \mid s_t)}{\pi_{\text{old}}(a_t \mid s_t)} rt(ϕ)=πold(atst)πϕ(atst) 是概率比, ϵ \epsilon ϵ 是裁剪超参数(通常取 0.1 或 0.2)。这一目标函数的直觉是:当优势 A t > 0 A_t > 0 At>0 时,我们希望增大 π ϕ ( a t ∣ s t ) \pi_\phi(a_t \mid s_t) πϕ(atst),即让 r t r_t rt 增大,但裁剪将其限制在 1 + ϵ 1+\epsilon 1+ϵ 以内,防止过度更新;当优势 A t < 0 A_t < 0 At<0 时,我们希望减小 π ϕ ( a t ∣ s t ) \pi_\phi(a_t \mid s_t) πϕ(atst),即让 r t r_t rt 减小,但裁剪将其限制在 1 − ϵ 1-\epsilon 1ϵ 以上。这种"鼓励但限制"的机制,使 PPO 在保持训练稳定性的同时具有较好的样本效率,成为当前强化学习领域最广泛使用的算法之一。InstructGPT 选择 PPO 作为第三阶段的优化算法,正是看中了其在稳定性与效率之间的良好平衡。

2.4 偏好学习与 Bradley-Terry 模型

InstructGPT 的第二阶段——奖励模型训练——本质上是一个偏好学习问题。给定同一提示下的两个模型输出 y w y_w yw y l y_l yl(下标 w 表示 win/preferred,l 表示 lose/dispreferred),标注员判断 y w y_w yw 优于 y l y_l yl。如何从这类二元偏好数据中学习一个标量奖励函数?论文采用了经典的 Bradley-Terry 模型。

Bradley-Terry 模型假设:对于两个"竞争者" i i i j j j i i i 胜过 j j j 的概率正比于两者的"能力" θ i \theta_i θi θ j \theta_j θj

P ( i ≻ j ) = θ i θ i + θ j = σ ( log ⁡ θ i − log ⁡ θ j ) P(i \succ j) = \frac{\theta_i}{\theta_i + \theta_j} = \sigma(\log \theta_i - \log \theta_j) P(ij)=θi+θjθi=σ(logθilogθj)

其中 σ \sigma σ 是 sigmoid 函数。在奖励建模场景下,将"能力"替换为奖励值 r θ ( x , y ) r_\theta(x, y) rθ(x,y),则输出 y w y_w yw 优于 y l y_l yl 的概率为:

P ( y w ≻ y l ∣ x ) = σ ( r θ ( x , y w ) − r θ ( x , y l ) ) P(y_w \succ y_l \mid x) = \sigma\left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) P(ywylx)=σ(rθ(x,yw)rθ(x,yl))

给定偏好数据集 D = { ( x ( i ) , y w ( i ) , y l ( i ) ) } i = 1 N \mathcal{D} = \{(x^{(i)}, y_w^{(i)}, y_l^{(i)})\}_{i=1}^{N} D={(x(i),yw(i),yl(i))}i=1N,通过最大似然估计可得到损失函数:

L RM ( θ ) = − 1 N ∑ i = 1 N log ⁡ σ ( r θ ( x ( i ) , y w ( i ) ) − r θ ( x ( i ) , y l ( i ) ) ) \mathcal{L}_{\text{RM}}(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \log \sigma\left( r_\theta(x^{(i)}, y_w^{(i)}) - r_\theta(x^{(i)}, y_l^{(i)}) \right) LRM(θ)=N1i=1Nlogσ(rθ(x(i),yw(i))rθ(x(i),yl(i)))

这一损失函数的直觉是:当奖励模型给偏好输出 y w y_w yw 的分数高于非偏好输出 y l y_l yl 时, r θ ( x , y w ) − r θ ( x , y l ) r_\theta(x, y_w) - r_\theta(x, y_l) rθ(x,yw)rθ(x,yl) 为正,sigmoid 输出接近 1,损失接近 0;反之损失增大。通过最小化该损失,奖励模型学会了"在人类偏好意义上给更好的输出打更高的分"。值得注意的是,Bradley-Terry 模型只能学到奖励的相对差异(即 r θ ( x , y w ) − r θ ( x , y l ) r_\theta(x, y_w) - r_\theta(x, y_l) rθ(x,yw)rθ(x,yl)),而非绝对值,因此奖励函数存在一个加性常数的自由度——这在实践中并不构成问题,因为后续 PPO 优化只关心奖励的相对大小。

2.5 指令微调与跨任务泛化的早期探索

在 InstructGPT 之前,业界已有多项工作尝试通过指令格式的多任务微调来提升模型的指令遵循能力。FLAN(Wei 等,2021)将 62 个公开 NLP 数据集统一为指令格式,对 1370 亿参数的 LaMDA 模型进行微调,发现其在未见过的任务上表现出零样本泛化能力。T0(Sanh 等,2021)则在 T5 模型上用 32 个数据集的多任务提示训练,同样观察到跨任务泛化。这些工作证明了"指令格式微调"的有效性,但论文实验表明,它们在真实 API 分布上的表现仍不及 InstructGPT 的 SFT 基线。

究其原因,论文指出两点:第一,公开 NLP 数据集的任务分布与真实用户需求分布存在偏差。公开数据集多为分类、问答等易于用自动指标评估的任务,而真实 API 用户更多使用开放式生成、头脑风暴、改写等难以自动评估的任务。第二,公开数据集的指令风格与真实用户输入风格不一致——公开数据集的指令往往经过人工精心设计、表述规范,而真实用户的输入则更口语化、更随意、甚至含错别字。InstructGPT 通过直接使用 API 真实用户提示作为训练数据,从根本上避免了这一分布偏差,这也是其优于 FLAN/T0 的关键原因之一。
在这里插入图片描述

[Figure 2:三阶段训练流程示意图]


3 三阶段训练方法论

3.1 方法论总览

InstructGPT 的训练流程遵循 Ziegler 等(2019)和 Stiennon 等(2020)提出的范式,并将其从单一任务(风格续写、摘要)扩展到通用指令分布。整个流程以一个预训练语言模型(GPT-3 系列,参数规模从 1.25 亿到 1750 亿不等)为起点,以一组希望模型产生对齐输出的提示分布和一支经过培训的标注团队为输入,通过三个阶段逐步将"续写型"模型改造为"指令遵循型"模型。

第一阶段是监督微调(SFT)。标注员在给定提示上提供"示范"(demonstration),即写出他们期望模型给出的理想回答。用这些(提示,示范)对作为监督数据,对预训练 GPT-3 进行标准的下一词预测微调,得到 SFT 模型。这一阶段的目标是让模型从"续写互联网文本"转向"以指令-回答格式生成内容",是后续阶段的基础。

第二阶段是奖励模型(RM)训练。在 SFT 模型基础上,对每个提示生成多个不同质量的回答(通常通过采样或不同模型生成),标注员对这些回答进行两两比较,标注哪个更好。用这些(提示,偏好输出,非偏好输出)三元组作为偏好数据,训练一个奖励模型 r θ ( x , y ) r_\theta(x, y) rθ(x,y),使其能预测人类偏好。奖励模型通常以 SFT 模型为初始化,将最后的 unembedding 层替换为输出标量的回归头。

第三阶段是 PPO 强化学习优化。将奖励模型的输出作为标量奖励信号,用 PPO 算法对 SFT 模型进行进一步微调,使模型策略朝着"奖励模型给高分"的方向优化。为防止策略偏离预训练分布过远导致性能退化,PPO 目标中加入了对 SFT 策略的 KL 散度惩罚项;为进一步缓解"对齐税",PPO-ptx 变体还混合了预训练数据上的梯度更新。

第二阶段和第三阶段可以持续迭代:在当前最优策略上收集更多比较数据,训练新的奖励模型,再用新的奖励模型训练新的策略。论文指出,实践中大部分比较数据来自 SFT 策略,少量来自 PPO 策略。这种迭代闭环使模型能够不断从人类反馈中学习,逐步逼近对齐目标。

为便于对照,下表总结了三阶段的关键要素。

阶段 输入数据 训练目标 输出模型 核心算法
第一步:SFT (提示,人工示范)对 最大化示范的下一词似然 SFT 模型 π SFT \pi^{\text{SFT}} πSFT 监督学习
第二步:RM (提示,偏好输出,非偏好输出)三元组 最小化 Bradley-Terry 交叉熵 奖励模型 r θ r_\theta rθ 偏好学习
第三步:PPO 提示(由当前策略生成回答) 最大化奖励减去 KL 惩罚 对齐策略 π ϕ RL \pi_\phi^{\text{RL}} πϕRL PPO 强化学习

3.2 第一阶段:监督微调(SFT)

监督微调阶段的目标是让预训练语言模型从"续写型"行为转变为"指令-回答型"行为。具体做法是:对每个提示 x x x,由标注员写出期望的回答 y y y,构成训练对 ( x , y ) (x, y) (x,y);然后以预训练 GPT-3 为初始化,在这些训练对上进行标准的下一词预测微调,损失函数为:

L SFT ( ϕ ) = − E ( x , y ) ∼ D demo [ ∑ t log ⁡ P ϕ ( y t ∣ x , y < t ) ] \mathcal{L}_{\text{SFT}}(\phi) = -\mathbb{E}_{(x,y) \sim \mathcal{D}_{\text{demo}}} \left[ \sum_{t} \log P_\phi(y_t \mid x, y_{<t}) \right] LSFT(ϕ)=E(x,y)Ddemo[tlogPϕ(ytx,y<t)]

其中 D demo \mathcal{D}_{\text{demo}} Ddemo 是示范数据集, ϕ \phi ϕ 是模型参数。注意这里只对回答部分 y y y 计算损失,提示部分 x x x 不参与损失计算(即所谓的"prompt masking"),这是指令微调的标准做法。

论文在约 13,000 条示范数据上训练 SFT 模型。尽管数据量相对预训练数据而言微不足道,但论文发现 SFT 已经能显著改善模型在 API 分布上的表现——SFT 模型的输出被标注员偏好的比例远高于原始 GPT-3。这一现象表明,预训练模型已经"知道"如何生成高质量内容,只是缺乏"在指令场景下激活这种能力"的引导;少量高质量的示范数据就足以"激活"这种能力。这一观察对工程实践有重要启示:在算力有限的情况下,优先投入资源提升示范数据的质量而非数量,往往能获得更高的边际收益。

论文还报告了一个值得注意的现象:SFT 模型在训练 1 个 epoch 后即在验证集上达到最优偏好评分,继续训练反而会导致过拟合——模型开始记忆训练数据中的特定表述模式,泛化能力下降。这一发现与"少样本即可激活能力"的观察一致,也提示了指令微调中正则化与早停的重要性。在训练超参数上,SFT 阶段对 1750 亿参数模型训练 2 个 epoch,批量大小为 32,学习率为固定值,未使用学习率预热或衰减。

3.3 第二阶段:奖励模型训练

奖励模型是连接人类偏好与强化学习的桥梁,其质量直接决定了 PPO 阶段的优化方向。奖励模型 r θ ( x , y ) r_\theta(x, y) rθ(x,y) 接收提示 x x x 和回答 y y y,输出一个标量奖励值,表示该回答在人类偏好意义上的"好坏程度"。

奖励模型的架构与 SFT 模型相同(即 Decoder-only Transformer),区别仅在于最后的输出层:SFT 模型的输出层是词表上的 softmax 分布,而奖励模型将其替换为一个输出标量的线性回归头。具体而言,奖励模型取回答最后一个词元的 Transformer 隐藏状态,经过一个线性投影得到标量奖励值。这种"复用 SFT 架构"的做法有两个好处:一是可以利用 SFT 模型作为初始化,加速收敛;二是 SFT 模型已经具备了对指令-回答的语义理解能力,奖励模型只需在此基础上学习"好坏判断"这一相对简单的任务。

奖励模型的训练数据收集方式值得详细说明。对每个提示 x x x,从当前策略(通常是 SFT 模型或上一轮 PPO 模型)采样 K K K 个不同回答 y 1 , y 2 , … , y K y_1, y_2, \ldots, y_K y1,y2,,yK(论文中 K = 4 K=4 K=4 9 9 9)。标注员对所有 ( K 2 ) = K ( K − 1 ) 2 \binom{K}{2} = \frac{K(K-1)}{2} (2K)=2K(K1) 个回答对进行两两比较,标注偏好关系。这样每个提示产生 K ( K − 1 ) 2 \frac{K(K-1)}{2} 2K(K1) 个偏好三元组。论文采用的奖励模型损失函数为:

L RM ( θ ) = − 1 ( K 2 ) E ( x , { y i } ) ∼ D [ ∑ i < j log ⁡ σ ( r θ ( x , y w ( i , j ) ) − r θ ( x , y l ( i , j ) ) ) ] \mathcal{L}_{\text{RM}}(\theta) = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x, \{y_i\}) \sim \mathcal{D}} \left[ \sum_{i<j} \log \sigma\left( r_\theta(x, y_w^{(i,j)}) - r_\theta(x, y_l^{(i,j)}) \right) \right] LRM(θ)=(2K)1E(x,{yi})D[i<jlogσ(rθ(x,yw(i,j))rθ(x,yl(i,j)))]

其中 y w ( i , j ) y_w^{(i,j)} yw(i,j) y l ( i , j ) y_l^{(i,j)} yl(i,j) 分别是回答 y i y_i yi y j y_j yj 中被标注员偏好的和不被偏好的。这一损失函数是上一节 Bradley-Terry 损失的多比较版本,通过对同一提示的所有回答对求平均,充分利用了标注信息。

论文报告了一个关键的工程经验:将所有 ( K 2 ) \binom{K}{2} (2K) 个比较对作为独立样本训练,比仅使用 K − 1 K-1 K1 个比较对(如仅比较相邻回答)效果更好,因为前者提供了更密集的梯度信号。但这也带来了一个潜在问题——同一提示下的多个比较对并非独立同分布,可能导致过拟合。论文通过将奖励模型训练 1 个 epoch 来缓解这一问题。

奖励模型的评估指标是其在留出比较对上的准确率。论文报告,奖励模型在留出标注员上的偏好预测准确率约为 69.6% ± 0.9%,在训练标注员上约为 72.4% ± 0.4%,两者差距很小,表明奖励模型并未严重过拟合特定标注员的偏好,而是学到了具有一定泛化性的偏好判断能力。这一泛化性是 InstructGPT 能够超越"过拟合训练标注员"质疑的关键证据。

3.4 第三阶段:PPO 强化学习优化

PPO 阶段是 InstructGPT 对齐流程的核心,它将奖励模型的标量输出转化为对语言模型策略的优化信号。在这一阶段,语言模型被视为强化学习中的策略 π ϕ ( y ∣ x ) \pi_\phi(y \mid x) πϕ(yx),它在给定提示 x x x 下生成回答 y y y,并获得奖励模型给出的奖励 r θ ( x , y ) r_\theta(x, y) rθ(x,y)

然而,直接最大化奖励会导致一个严重问题:策略可能找到奖励模型的"漏洞",生成奖励模型给高分但实际质量低下的回答(即"奖励黑客"现象,reward hacking)。例如,策略可能学会生成某些特定模式的长文本,因为这些模式在训练数据中恰好与高奖励相关。为防止这种情况,论文在 PPO 目标中加入了对 SFT 策略的 KL 散度惩罚项,约束 PPO 策略不要偏离 SFT 策略太远。完整的 PPO 目标函数为:

objective ( ϕ ) = E ( x , y ) ∼ D π ϕ RL [ r θ ( x , y ) − β log ⁡ π ϕ RL ( y ∣ x ) π SFT ( y ∣ x ) ] \text{objective}(\phi) = \mathbb{E}_{(x,y) \sim \mathcal{D}_{\pi_\phi^{\text{RL}}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\phi^{\text{RL}}(y \mid x)}{\pi^{\text{SFT}}(y \mid x)} \right] objective(ϕ)=E(x,y)DπϕRL[rθ(x,y)βlogπSFT(yx)πϕRL(yx)]

其中 β \beta β 是 KL 惩罚系数,控制策略偏离 SFT 的程度。KL 项 log ⁡ π ϕ RL ( y ∣ x ) π SFT ( y ∣ x ) \log \frac{\pi_\phi^{\text{RL}}(y \mid x)}{\pi^{\text{SFT}}(y \mid x)} logπSFT(yx)πϕRL(yx) 是逐词元计算的,对回答 y y y 的每个词元求对数概率比,再求和。这一项的作用是:当 PPO 策略给某个回答的概率远高于 SFT 策略时,KL 项为正,会"惩罚"这种偏离;反之则"鼓励"策略向 SFT 靠拢。通过调节 β \beta β,可以在"充分利用奖励信号"与"保持与 SFT 接近"之间取得平衡。

在实际训练中,PPO 的实现细节较为复杂。每个训练步包含以下操作:从提示分布中采样一批提示;用当前 PPO 策略生成回答;用奖励模型对每个(提示,回答)对计算奖励;计算 PPO 策略与 SFT 策略之间的 KL 惩罚;用裁剪目标函数计算策略梯度并更新参数。论文使用广义优势估计(Generalized Advantage Estimation,GAE)来估计优势函数,以降低梯度方差。PPO 的裁剪超参数 ϵ \epsilon ϵ 设为 0.2,这是 PPO 原论文推荐的常用值。

值得注意的是,文本生成中的"动作"是离散的词元选择,而 PPO 原本设计用于连续或离散动作空间。在离散动作空间下,PPO 的实现与连续空间略有不同——重要性采样比 r t ( ϕ ) r_t(\phi) rt(ϕ) 直接由两个策略在该词元上的概率比给出,无需重参数化。此外,由于文本生成的"回合"较长(一个回答可能包含数十到数百个词元),论文将整个回答视为一个"宏观动作",在回答结束后才计算奖励,这种"回合制"设定简化了优势估计但也增加了方差。

3.5 PPO-ptx:缓解对齐税的混合更新策略

论文发现,纯 PPO 微调虽然能显著提升模型在 API 分布上的偏好评分,但会导致模型在部分标准 NLP 任务上性能退化——这种现象被称为"对齐税"(alignment tax)。具体而言,PPO 模型在 DROP、SQuADv2、HellaSwag、WMT 翻译等任务上的零样本表现低于原始 GPT-3。这种退化的原因在于:PPO 优化使策略偏离了预训练分布,而预训练分布中包含的大量"世界知识"与"语言能力"在偏离过程中部分丢失。

为缓解对齐税,论文提出了 PPO-ptx 变体,在 PPO 目标中额外混合预训练数据上的梯度更新:

objective ( ϕ ) = E ( x , y ) ∼ D π ϕ RL [ r θ ( x , y ) − β log ⁡ π ϕ RL ( y ∣ x ) π SFT ( y ∣ x ) ] + γ E x ∼ D pretrain [ log ⁡ π ϕ RL ( x ) ] \text{objective}(\phi) = \mathbb{E}_{(x,y) \sim \mathcal{D}_{\pi_\phi^{\text{RL}}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\phi^{\text{RL}}(y \mid x)}{\pi^{\text{SFT}}(y \mid x)} \right] + \gamma \mathbb{E}_{x \sim \mathcal{D}_{\text{pretrain}}} \left[ \log \pi_\phi^{\text{RL}}(x) \right] objective(ϕ)=E(x,y)DπϕRL[rθ(x,y)βlogπSFT(yx)πϕRL(yx)]+γExDpretrain[logπϕRL(x)]

其中 γ \gamma γ 是预训练混合系数, D pretrain \mathcal{D}_{\text{pretrain}} Dpretrain 是预训练数据分布。第二项是预训练数据上的对数似然,它"拉回"策略,防止其过度偏离预训练分布。直观上,PPO-ptx 在"优化人类偏好奖励"与"保持预训练能力"之间做了加权平衡: γ \gamma γ 越大,模型越接近预训练 GPT-3,对齐税越小但偏好提升也越小; γ \gamma γ 越小,模型越偏向人类偏好,但对齐税越大。

论文实验表明,PPO-ptx 在大多数 NLP 任务上能逆转 PPO 引入的性能退化,甚至在 HellaSwag 上超越了原始 GPT-3。更重要的是,论文发现"混合预训练更新"比"增大 KL 惩罚系数 β \beta β"更有效——增大 β \beta β 虽然也能减少偏离,但会显著降低验证奖励,且无法完全恢复 DROP 和 SQuADv2 上的表现;而调节 γ \gamma γ 则能在恢复 NLP 性能的同时保持较高的验证奖励。这一发现对工程实践有重要指导意义:在缓解对齐税时,应优先考虑混合预训练更新而非单纯增大 KL 惩罚。

下表对比了 InstructGPT 中各模型变体的关键特征。

模型变体 训练方式 是否使用 RM 是否使用 KL 惩罚 是否混合预训练更新 主要用途
GPT-3 仅预训练 基线对照
GPT-3 (prompted) 预训练 + 少样本提示 提示工程基线
SFT 预训练 + 监督微调 对齐流程中间产物
PPO SFT + PPO 强化学习 完整对齐模型
PPO-ptx SFT + PPO + 预训练混合 缓解对齐税的对齐模型

在这里插入图片描述

[此处可粘贴论文 Figure 3:InstructGPT 各模型变体在 API 分布上的偏好评分对比]


4 数据集构建与人工标注体系

4.1 提示数据集来源与分布

InstructGPT 的训练数据与评估数据主要来自 OpenAI API 的真实用户提示,这一选择是论文区别于 FLAN、T0 等基于公开数据集工作的关键设计决策。具体而言,提示数据集主要由提交到 OpenAI API 中早期 InstructGPT 模型(通过监督学习在示范数据子集上训练)的用户提示构成,这些用户使用的是 Playground 接口。在使用 InstructGPT 模型时,Playground 会通过反复通知告知用户其数据可能被用于训练后续模型,从而获得了数据使用授权。论文明确指出,本研究不使用通过 API 以生产方式(即非 Playground)使用模型的客户数据,这一区分旨在平衡数据获取与用户隐私。

为避免训练-评估数据混淆,论文在划分时确保评估提示来自未参与训练的客户。同时,考虑到训练提示本身是为 InstructGPT 设计的,可能对 GPT-3 基线不利,论文还额外评估了一组提交给 GPT-3 模型的 API 提示——这些提示通常不是"指令风格",而是为 GPT-3 的续写能力专门设计的。这种双轨评估设计使结果更具说服力。

论文对 API 提示的用例分布进行了详细统计,结果如下表所示。这一分布揭示了真实用户需求与公开 NLP 数据集任务分布之间的显著偏差。

用例类别 占比 典型提示示例
生成(Generation) 45.6% 写一个短故事:一只熊去海边,和一只海豹成为朋友,然后回家。
开放问答(Open QA) 12.4% 谁建造了自由女神像?
头脑风暴(Brainstorming) 11.2% 列出五个帮我重拾职业热情的想法。
聊天(Chat) 8.4% (多轮对话场景)
改写(Rewrite) 6.6% 这是百老汇剧目的简介:{summary}。请写出该剧目的广告大纲。
摘要(Summarization) 4.2% 请为二年级学生总结以下内容:{text}
分类(Classification) 3.5% (情感分析、主题分类等)
其他(Other) 3.5% (难以归类的杂项)
封闭问答(Closed QA) 2.6% 根据以下事实回答:氢和氦有何不同?
抽取(Extract) 1.9% (信息抽取任务)

从上表可以看出,开放式生成(Generation)占比高达 45.6%,加上头脑风暴(11.2%),合计超过 57% 的提示属于"难以用自动指标评估"的开放性任务。而分类与问答(封闭+开放)合计仅约 18.5%。这一分布与公开 NLP 数据集以分类、问答为主的任务结构形成鲜明对比,也从数据层面解释了为何 FLAN/T0 在真实分布上表现不佳——它们的训练任务分布与真实需求分布不匹配。

论文还注意到,API 提示中存在相当比例的"敏感"与"争议性"话题,这要求标注员具备识别潜在有害输出的能力。此外,部分提示含有错误前提(如"为什么冥想后要吃袜子")或多个约束条件(如"列出 10 部 1930 年代法国背景的电影"),这些提示对模型的指令遵循能力构成了特殊挑战,也成为论文后续分析模型失败模式的重要素材。

4.2 标注团队构建与质量控制

人工标注是 InstructGPT 流程的核心环节,标注质量直接决定了示范数据、偏好数据与评估结果的可靠性。与早期在摘要任务上收集偏好数据的工作(Ziegler 等 2019;Stiennon 等 2020)相比,InstructGPT 的输入覆盖更广泛的任务范围,且偶尔涉及争议性与敏感话题。因此,论文在标注团队构建上投入了大量精力。

论文通过 Upwork 和 ScaleAI 招募了约 40 名标注员。选择保持团队规模较小的原因有二:一是便于与全职投入的标注员保持高带宽沟通,及时对齐标注标准;二是小团队更易于管理与培训。然而,论文也坦诚承认,这一群体显然不能代表模型全部用户与受影响人群的完整谱系——例如,标注员主要以英语为母语,训练数据也几乎全部为英语指令。这一代表性不足是论文讨论的重要局限之一。

为筛选合适的标注员,论文设计了一套专门的筛选测试,重点考察两个维度:一是对不同人群偏好的敏感度,即标注员能否识别并尊重不同文化、背景人群的偏好差异;二是识别潜在有害输出的能力,即标注员能否准确判断哪些输出可能对特定群体造成伤害。只有在测试中表现优异的候选人才会被录用。论文在附录 B.1 中详细描述了筛选流程与标注员的人口统计信息。

在标注过程中,论文为标注员提供了详细的标注指南(见附录 B),明确了"有用性、诚实性、无害性"三大标准及其在不同任务中的权衡原则。指南的核心指导原则是:在大多数任务中,无害性与诚实性比有用性更重要;但在"非高风险领域"(如非贷款审批、医疗、法律咨询)且一个输出明显更有用、仅略微不够诚实/无害时,可以偏好更有用的输出。这种结构化的权衡框架使标注员的判断更具一致性。

论文还设计了一套元数据采集机制,要求标注员对每个模型输出从多个维度进行评分。下表列出了标注员需要填写的元数据字段。

元数据字段 含义 取值/类型
Likert 评分 输出整体质量 1-7 整数
是否遵循指令 输出是否完成了提示要求 是/否
是否真实 输出内容是否真实可信 是/部分/否
是否有害 输出是否可能造成伤害 是/否
有害类型 若有害,具体类型 歧视/暴力/色情/其他
是否含幻觉 输出是否捏造信息 是/否
输出风格 输出的语言风格 正式/口语/混合
与提示相关性 输出与提示的相关程度 高/中/低

这套多维元数据不仅用于计算偏好评分,还使论文能够从不同维度分析模型行为——例如,分别考察模型在"有用性"与"诚实性"上的改进,而非仅看一个综合分数。这种细粒度的评估设计是 InstructGPT 评估体系的重要特色。

4.3 标注一致性与泛化性验证

标注一致性是偏好数据质量的关键指标。如果不同标注员对同一比较对的判断高度不一致,那么训练出的奖励模型将学到"噪声偏好",难以泛化。论文通过两种方式验证标注一致性:一是计算标注员之间的协议率;二是考察模型在"留出标注员"(held-out labelers,即未参与训练数据生产的标注员)上的偏好预测准确率。

在留出标注员实验中,论文将标注员分为 5 组,用 5 折交叉验证训练 5 个奖励模型(每组用 3 个随机种子),在留出组上评估偏好预测准确率。结果显示,奖励模型在留出标注员上的准确率为 69.6% ± 0.9%,在训练标注员上为 72.4% ± 0.4%,两者差距仅约 3 个百分点。这一结果表明,奖励模型并未过拟合特定标注员的偏好,而是学到了具有一定普遍性的偏好判断能力。论文进一步指出,留出标注员的偏好排序与训练标注员高度一致——所有 InstructGPT 模型在留出标注员评估中仍大幅优于 GPT-3 基线。这一发现有力地回应了"InstructGPT 只是过拟合训练标注员偏好"的潜在质疑。

然而,论文也承认标注体系存在改进空间。例如,出于成本考虑,大多数比较对仅由 1 名标注员标注。如果对同一比较对进行多次标注,可以识别标注员分歧较大的区域,这些区域恰恰是模型难以对齐所有人偏好的"困难案例"。在分歧情况下,对齐到"平均偏好"可能并非最优选择——例如,当生成可能不成比例影响某少数群体时,该群体标注员的偏好应被赋予更高权重。这些思考为后续对齐研究(如 Constitutional AI 中的"宪法"方法)提供了重要启发。


5 评估体系与实验结果

5.1 对齐的三维定义:有用、诚实、无害

InstructGPT 的评估体系建立在对"对齐"的精细化定义之上。论文将对齐目标分解为三个维度:有用性(helpfulness)、诚实性(truthfulness)和无害性(harmlessness),这一"3H"框架后来成为对齐研究的标准术语。

有用性指模型输出是否能有效完成用户通过指令表达的需求。这看似简单的定义实则包含多层含义:输出需要与提示相关、需要遵循提示中的所有约束(如字数、格式、风格)、需要足够详细以具备实用价值、需要避免冗余或离题内容。有用性的评估难点在于它高度依赖任务上下文——同一个输出在头脑风暴任务中可能"很有用",但在事实问答任务中可能"不够严谨"。

诚实性指模型输出是否真实、是否避免捏造信息(hallucination)、是否在不确定时恰当表达不确定性。诚实性的评估面临两个挑战:一是"真实"本身难以判定,尤其在涉及主观判断或快速变化的事实(如政治事件)时;二是模型可能"诚实但无用"——例如对每个问题都回答"我不知道"。论文采用 TruthfulQA 数据集(Lin 等,2021)作为诚实性的代理指标,并辅以人工评估模型在封闭域任务上的幻觉率。论文发现,PPO 模型在 TruthfulQA 上相比 GPT-3 有小幅但显著的提升,且在"Instruction+QA"提示下(即指示模型在不确定时回答"我无评论"),PPO 模型更倾向于"诚实但无用"而非"自信地错误"。

无害性指模型输出是否避免对用户或第三方造成伤害,包括避免有毒内容、避免歧视性言论、避免鼓励危险行为等。无害性的评估尤为困难,因为"伤害"高度依赖使用场景——同一段有毒文本在聊天机器人场景中是有害的,但在训练毒性检测模型的数据增强场景中可能是有用的。论文早期曾让标注员评估输出是否"潜在有害",但因需要过多推测输出最终用途而放弃。最终,论文采用一组更具体的代理标准:评估输出是否在客户助手场景中不恰当、是否贬低受保护群体、是否含色情或暴力内容。此外,论文还使用 RealToxicityPrompts(Gehman 等,2020)和 CrowS-Pairs(Nangia 等,2020)数据集进行自动毒性评估。

这三个维度之间并非总是和谐一致,而是经常存在张力。例如,在用户请求"如何制造危险物品"时,"有用"意味着给出详细步骤,但"无害"要求拒绝回答。论文在训练阶段优先有用性(即倾向于满足用户请求),但在最终评估阶段要求标注员优先诚实性与无害性。这种"训练-评估目标分离"的设计反映了现实约束:若训练阶段就严格拒绝所有潜在有害请求,模型可能变得过于保守而失去实用价值;而评估阶段关注无害性则确保了对安全风险的持续监控。

5.2 API 分布上的偏好评估

API 分布上的偏好评估是论文的核心结果。评估方式是:对每个提示,让两个模型分别生成回答,由标注员判断哪个更好(或打平)。论文以 1750 亿参数的 SFT 模型作为基线(因其表现处于中间水平),计算各模型相对于该基线的胜率。

主要结果令人瞩目:1750 亿参数的 InstructGPT(PPO-ptx)输出被标注员偏好的比例约为 85%,远高于 1750 亿参数的 GPT-3。在所有参数规模上平均,InstructGPT 被偏好的比例约为 71%。更令人惊讶的是,13 亿参数的 InstructGPT 的输出被偏好程度也高于 1750 亿参数的 GPT-3——这意味着,通过对齐微调,一个不到 GPT-3 参数量 1% 的小模型,在用户偏好上超越了原始 GPT-3。这一结果深刻地表明,在当前能力水平下,对齐投资的边际收益远高于规模扩张。

论文还从多个细分维度分析了偏好结果。在用例类别上,InstructGPT 在生成、开放问答、头脑风暴、聊天、改写、摘要等大多数类别上均优于 GPT-3,仅在少数样本量过小的类别上无法获得统计显著性。在输出特征上,InstructGPT 的输出更倾向于"遵循指令"“更相关”“更恰当”——这些正是对齐微调的直接目标。

为验证结果不是过拟合训练标注员偏好,论文在留出标注员上重复了偏好评估。结果显示,留出标注员的偏好排序与训练标注员高度一致,所有 InstructGPT 模型仍大幅优于 GPT-3 基线。这一泛化性证据是论文结果可信度的重要支撑。

论文还将 InstructGPT 与 FLAN、T0 进行了对比。在 1750 亿参数 GPT-3 基础上分别用 FLAN 和 T0 数据集微调,然后在 API 分布上进行偏好评估。结果显示:FLAN 和 T0 优于原始 GPT-3,与"指令模式"下的少样本 GPT-3 相当,但不及 SFT 基线。在直接对比中,1750 亿参数 InstructGPT 的输出被偏好于 FLAN 模型 78% ± 4% 的时间,被偏好于 T0 模型 79% ± 4% 的时间。这一结果定量地证明了"基于真实 API 数据的对齐微调"优于"基于公开 NLP 数据集的指令微调"。

5.3 真实性、毒性与偏见的细粒度评估

在 3H 框架下,论文对真实性、毒性、偏见进行了细粒度评估,这些评估揭示了 RLHF 对齐的深层效果。

在真实性方面,论文使用 TruthfulQA 数据集进行人工评估。TruthfulQA 专门设计用于测试模型是否会模仿互联网上的常见误解,其问题往往是"对抗性"的——即针对 GPT-3 的已知弱点设计。评估结果显示,PPO 模型在生成"真实且有用"输出方面相比 GPT-3 有小幅但显著的提升。值得注意的是,这种提升是"默认行为"——模型无需被特别指示"要诚实"就表现出更高的真实性。唯一的例外是 13 亿参数的 PPO-ptx 模型,其真实性略低于同规模 GPT-3,论文推测这可能与预训练混合更新引入的"能力稀释"有关。

论文还考察了"Instruction+QA"提示模式下的行为。在该模式下,模型被指示"在不确定时回答’我无评论’“。结果显示,PPO 模型更倾向于"诚实但无用”(即回答"我无评论")而非"自信地错误"。这一行为模式对实际部署意义重大——它使模型在不确定时"知道自己的无知",而非编造看似合理实则错误的内容。此外,论文发现 PPO 模型在封闭域任务上的幻觉率低于 GPT-3,进一步佐证了真实性的提升。

在毒性方面,论文使用 RealToxicityPrompts 数据集,通过两种方式评估:一是将模型输出通过 Perspective API 获取自动毒性分数;二是进行人工毒性评估。结果显示,InstructGPT 在毒性上相比 GPT-3 有小幅改善——当被指示生成"有用"回答时,InstructGPT 的毒性低于 GPT-3;当被指示生成"最大化偏见"回答时,InstructGPT 生成的毒性反而高于 GPT-3。这一"指令敏感性"揭示了一个重要风险:对齐后的模型更"听话",因此当用户给出有害指令时,它可能比未对齐模型更"高效地"执行有害行为。这一发现促使论文在讨论部分专门反思了"对齐到谁"的问题。

在偏见方面,论文使用 CrowS-Pairs 数据集评估模型在性别、种族、宗教等维度上的偏见。结果显示,InstructGPT 与 GPT-3 在偏见上没有显著差异——RLHF 微调并未改善模型的固有偏见。论文推测,这可能是因为偏见主要源于预训练数据,而 RLHF 微调的数据量与覆盖度不足以纠正这种根深蒂固的统计模式。这一结果表明,偏见缓解需要从预训练数据清洗、对齐微调、推理时过滤等多个环节协同发力,单靠 RLHF 难以根治。

5.4 对齐税与 NLP 能力保持

对齐税是 InstructGPT 工程实践中必须正视的问题。论文系统评估了各模型在标准 NLP 任务上的零样本表现,包括 DROP(离散数学推理)、SQuADv2(阅读理解)、HellaSwag(常识推理)、WMT 翻译等。结果显示,纯 PPO 模型在 DROP、SQuADv2、翻译等任务上表现低于原始 GPT-3,体现了明显的对齐税。

PPO-ptx 通过混合预训练更新有效缓解了这一问题。在大多数 NLP 任务上,PPO-ptx 逆转了 PPO 引入的性能退化,甚至在 HellaSwag 上超越了原始 GPT-3。然而,PPO-ptx 在 DROP、SQuADv2 和翻译上仍略低于 GPT-3,表明对齐税并未被完全消除。论文指出,进一步研究如何彻底消除对齐税是重要未来方向。

论文还对比了两种缓解对齐税的策略:混合预训练更新(PPO-ptx)与增大 KL 惩罚系数 β \beta β。实验表明,存在一个 γ \gamma γ 值能同时逆转 SQuADv2 和 DROP 上的退化且对验证奖励影响最小;而增大 β \beta β 虽然也能减少偏离,但会导致验证奖励显著下降,且无法完全恢复 DROP 和 SQuAD 上的表现。此外,将 KL 参考模型从 SFT 改为 GPT-3 会得到类似结果。这些发现为工程实践提供了明确指导:优先采用混合预训练更新策略。

下表总结了各模型在关键评估维度上的相对表现(以 GPT-3 为参照基准)。

评估维度 GPT-3 SFT PPO PPO-ptx FLAN/T0
API 偏好评分 基准 显著优于 显著优于 显著优于 略优于 GPT-3
TruthfulQA 真实性 基准 略优于 优于 略优于(1.3B 除外) 未评估
RealToxicityPrompts 毒性 基准 略低 略低 略低 未评估
CrowS-Pairs 偏见 基准 相当 相当 相当 未评估
DROP/SQuADv2 NLP 能力 基准 略低 低于 接近/略低 未评估
HellaSwag 常识推理 基准 略低 低于 超越 未评估

5.5 定性结果与跨语言泛化

除了定量评估,论文还展示了若干定性结果,揭示 InstructGPT 的有趣行为。最引人注目的是其跨语言泛化能力:尽管训练数据几乎全部为英语指令,InstructGPT 表现出对非英语指令的遵循能力,能够用非英语回答问题、进行摘要。此外,InstructGPT 还能对代码进行摘要与问答,尽管代码相关任务并未在训练中显式覆盖。

这种"训练分布外泛化"能力具有重要的理论与实践意义。从实践角度,它意味着无需为每种语言、每种任务单独收集偏好数据,对齐微调的"知识"可以迁移到未显式监督的领域,大幅降低了部署成本。从理论角度,它暗示 RLHF 学到的不仅是"在特定提示上给高分",而是某种更抽象的"指令遵循能力"——这种能力一旦习得,可以泛化到不同表面形式但语义相似的指令上。

然而,论文也指出 InstructGPT 存在若干失败模式。第一,对含有错误前提的提示(如"为什么冥想后要吃袜子"),模型有时仍会"配合"错误前提生成内容,而非指出前提的不合理。第二,模型有时过度"谦逊",在存在明确答案时仍给出模糊或回避的回答——论文推测这源于标注员被指示奖励"认知谦逊",导致奖励模型过度偏好"含糊其辞"的输出。第三,当指令含多个显式约束(如"列出 10 部 1930 年代法国背景的电影")或约束对语言模型具有挑战性(如"用指定句数写摘要")时,模型表现下降。这些失败模式为后续改进指明了方向:对抗性数据收集可缓解第一类问题;调整标注准则可缓解第二类问题;增强约束遵循能力可缓解第三类问题。
在这里插入图片描述

[Figure 4:TruthfulQA 数据集上各模型的真实性与信息性评分]


6 讨论与对齐研究启示

6.1 对齐研究的四点核心启示

论文在讨论部分总结了 InstructGPT 对对齐研究的四点核心启示,这些启示不仅对 OpenAI 自身的后续工作(ChatGPT、GPT-4)具有指导意义,也为整个对齐研究社区提供了重要经验。

第一,对齐投资的边际收益高于规模扩张。论文发现,13 亿参数的 InstructGPT 在用户偏好上优于 1750 亿参数的 GPT-3,而对齐微调所需的算力仅为预训练的极小部分。这一结果"颠覆了规模即一切的迷思",表明在当前能力水平下,将资源投入对齐而非规模扩张,能获得更高的"用户满意度/算力"比。论文估算,对齐微调使模型在用户偏好上的提升,相当于将模型规模扩大 100 倍以上的效果。这一发现对资源有限的团队尤为重要——它意味着即使无法训练超大模型,通过精心设计的对齐微调,仍能打造出用户体验优秀的模型。当然,这一结论有其适用边界:当模型基础能力不足时(如无法理解复杂指令),对齐微调的收益会受限;且随着模型能力提升,对齐的难度与成本也可能非线性增长。

第二,对齐能力可以泛化到未监督的领域。InstructGPT 表现出对非英语指令、代码任务的泛化能力,尽管这些领域未在训练中显式监督。这一"训练分布外泛化"特性对实际部署至关重要——它意味着无需为每个任务、每种语言单独收集偏好数据,对齐的"指令遵循能力"可以迁移。论文指出,这一特性对于"无法人工监督每个任务"的高能力模型尤为重要,但也提醒需要更多研究来考察这种泛化如何随模型能力提升而扩展。Christiano 等(2021)的后续研究方向正是探索这种泛化的可扩展性。

第三,对齐税可以被有效缓解。论文通过 PPO-ptx 的混合预训练更新策略,成功缓解了大部分 RLHF 引入的 NLP 性能退化。这一结果对对齐技术的实际采用至关重要——如果对齐税过高,开发者可能没有动力采用对齐技术,导致高能力 AI 系统保持"未对齐"状态,带来安全隐患。论文将"低对齐税"视为对齐技术能否被广泛采用的关键因素,而 InstructGPT 的结果表明 RLHF 是一种"低税"对齐技术,这为 RLHF 的主流化奠定了基础。

第四,对齐研究从抽象走向实证。论文指出,对齐研究历史上较为抽象,或聚焦理论结果(Soares 等 2015),或在小规模合成领域(Christiano 等 2018;Leike 等 2017),或在公开 NLP 数据集上训练(Ziegler 等 2019;Stiennon 等 2020)。InstructGPT 首次将对齐技术应用于真实产品中的 AI 系统,为对齐研究提供了"真实世界"的实证基础。这一"从实验室到产品"的跨越,不仅验证了 RLHF 的工程可行性,也暴露了实验室环境难以发现的真实问题(如标注员代表性、指令敏感性等),推动了对齐研究向更务实的方向发展。

6.2 "对齐到谁"的哲学追问

论文深入讨论了一个常被忽视但至关重要的问题:当我们说"对齐"时,究竟是对齐到谁的偏好?这一问题看似技术性,实则涉及深刻的伦理与社会考量。

在 InstructGPT 的设定中,“对齐目标"被操作化为"标注团队的偏好”。然而,约 40 名主要英语母语的标注员,显然不能代表模型全部用户与受影响人群的完整谱系。不同文化、背景、价值观的人群对"有用"“诚实”"无害"的理解可能存在显著差异——例如,某些文化中"直接指出错误"被视为诚实,而另一些文化中"委婉回避"被视为礼貌。将对齐到一小群标注员的偏好,可能使模型对其他人群"不对齐"甚至有害。

论文以一个具体例子说明这一张力:当生成可能不成比例影响某少数群体时,对齐到"平均偏好"可能并非最优——该少数群体自身的偏好应被赋予更高权重。然而,如何识别"受影响群体"、如何加权不同群体的偏好、如何处理群体内部的偏好分歧,都是开放问题。这些问题的复杂性远超技术层面,涉及社会学、伦理学、政治学的交叉考量。

更深层的问题在于,“对齐到人类偏好"本身是否足够?人类偏好可能存在系统性偏差——例如,人们可能偏好"确认自己已有观点"的信息(确认偏误),可能偏好"简单化"的解释而非"准确但复杂"的解释。如果模型纯粹对齐到"人类偏好”,可能强化这些偏差而非纠正它们。这一思考催生了"宪法 AI"(Constitutional AI)等后续工作,它们试图让模型对齐到一组显式定义的"宪法原则"而非纯粹的人类偏好,以避免人类偏好的系统性偏差被放大。

论文还讨论了模型部署的更广泛社会影响。如果大语言模型被广泛开源,恶意行为者可能利用其生成大规模虚假信息、自动化网络攻击、个性化钓鱼等,造成严重社会危害。反之,如果将大模型访问限制在少数有资源训练的组织,则可能排斥大多数人接触前沿 AI 技术,加剧技术垄断。第三种选择是由组织拥有端到端部署基础设施,通过 API 提供访问,并实施使用场景限制、滥用监控、速率限制等安全协议——但这以降低透明度和权力集中为代价。这些权衡没有简单答案,需要社会多方共同治理。

6.3 与后续工作的关联

InstructGPT 的发表(2022 年 3 月)标志着 RLHF 从学术研究走向工业主流。在其后短短一年内,RLHF 成为几乎所有主流大模型对齐的标准技术:2022 年 11 月发布的 ChatGPT 直接基于 InstructGPT 的技术路线;Anthropic 的 Claude 系列采用 RLHF 与 Constitutional AI 的结合;Meta 的 Llama-2-Chat 在 Llama-2 基础上用 RLHF 微调;Google 的 Gemini、Mistral 的 Mixtral-Instruct 等均采用类似流程。可以说,InstructGPT 确立了"预训练—SFT—RLHF"的三段式范式,成为大模型时代的事实标准。

然而,InstructGPT 也暴露了 RLHF 的若干固有局限,催生了大量后续改进工作。在奖励模型方面,Bradley-Terry 模型只能建模二元偏好,无法处理"两个输出都好/都差"或"在不同维度上各有优劣"的复杂情况,促使了基于偏序、基于多维评分的奖励模型研究。在对齐税方面,PPO-ptx 的混合更新虽有效但不够优雅,促使了 DPO(Direct Preference Optimization)等"无奖励模型"方法的提出——DPO 直接从偏好数据优化策略,避免了显式奖励模型可能带来的"奖励黑客"问题。在标注成本方面,RLHF 需要大量人工偏好标注,成本高昂且难以扩展,促使了 RLAIF(RL from AI Feedback)等用 AI 替代人工标注的方法。在"对齐到谁"方面,Constitutional AI 等方法试图用显式原则替代人工偏好,以提升对齐的可控性与一致性。

这些后续工作无一不建立在 InstructGPT 的基础之上——它们或解决 InstructGPT 暴露的问题,或扩展 InstructGPT 的方法边界,或反思 InstructGPT 的对齐目标。从这个意义上说,InstructGPT 不仅是一篇技术论文,更是大模型对齐研究的"分水岭",它将一个相对小众的研究方向推向了 AI 工业的主流舞台。


7 局限性、开放问题与未来展望

7.1 方法论层面的局限

论文坦诚地讨论了 InstructGPT 在方法论上的多重局限,这些局限既是对当前工作的客观评估,也是对未来研究的方向指引。

在数据层面,最突出的局限是标注员群体的代表性不足。约 40 名主要英语母语的标注员,无法代表模型全部用户与受影响人群的完整谱系。这一代表性不足在多个维度上存在:语言上,训练数据几乎全部为英语,导致模型对非英语指令的支持依赖泛化而非显式训练;文化上,标注员的价值观可能偏向西方/英语文化,对其他文化的偏好理解不足;专业上,标注员可能缺乏某些专业领域(如医学、法律)的知识,难以准确评估这些领域输出的质量。论文指出,这一群体"显然不能代表受模型部署影响的全部人群",是方法的核心局限之一。

在标注流程上,出于成本考虑,大多数比较对仅由 1 名标注员标注。这一做法虽然控制了成本,但无法识别标注员分歧较大的"困难案例"——而这些案例恰恰是模型最需要学习对齐的区域。如果对同一比较对进行多次标注,可以计算标注员间的一致性,识别"高分歧"区域,并针对性地收集更多数据或调整标注准则。此外,在分歧情况下,简单地对齐到"平均偏好"可能并非最优——例如,当输出影响特定少数群体时,该群体标注员的偏好应被赋予更高权重。这些改进方向在论文中作为"未来工作"提出,后续的 Constitutional AI 等工作部分回应了这些挑战。

在评估层面,论文承认当前的评估指标仅捕获了对齐的"一小部分"。例如,TruthfulQA 只能测量"是否会模仿常见误解"这一狭义真实性,无法覆盖"真实性"的全部含义;RealToxicityPrompts 的自动毒性分数依赖 Perspective API,可能存在系统性偏差;CrowS-Pairs 的偏见评估覆盖的群体与维度有限。更根本的是,许多"对齐相关"的行为(如是否恰当拒绝有害请求、是否在多轮对话中保持一致)难以用单一指标量化。论文呼吁开发更全面、更细粒度的对齐评估基准,这一呼吁催生了后续的 MT-Bench、AlpacaEval 等评估工作。

7.2 模型层面的局限

在模型层面,论文指出 InstructGPT 既未完全对齐也未完全安全。模型仍会生成有毒或偏见内容、捏造事实、生成色情或暴力内容,即使在无显式有害提示的情况下。这些"自发有害"行为源于预训练数据中的有害模式未被完全消除,而 RLHF 微调的数据量与覆盖度不足以纠正这些根深蒂固的统计模式。

更值得警惕的是,论文指出 InstructGPT 的一个"最大局限":在大多数情况下,模型会遵循用户指令,即使该指令可能导致现实世界伤害。例如,当被指示"最大化偏见"时,InstructGPT 生成的毒性高于同等规模的 GPT-3。这一"指令敏感性"揭示了对齐的双刃剑效应——对齐使模型更"听话",但这种"听话"既可用于善(更好地满足合理需求),也可用于恶(更高效地执行有害指令)。这一发现深刻地表明,单纯的"指令遵循"对齐不足以保证安全,还需要在模型层面引入"拒绝有害指令"的能力。

论文还讨论了若干定性失败模式。第一,对含有错误前提的提示,模型有时仍"配合"错误前提而非指出其不合理。第二,模型有时过度"谦逊",在存在明确答案时仍给出模糊回答——论文推测这源于标注员被指示奖励"认知谦逊",导致奖励模型过度偏好"含糊"输出。第三,当指令含多个显式约束或约束对语言模型具有挑战性时,模型表现下降。这些失败模式表明,RLHF 对齐并非万能——它能改善"指令遵循"的整体表现,但无法解决所有指令处理难题。

7.3 开放问题与未来方向

基于上述局限,论文提出了若干开放问题与未来研究方向,这些方向在 InstructGPT 发表后陆续被社区探索。

第一个方向是减少有害输出。论文建议采用"对抗性数据收集"——让标注员主动寻找模型的最坏行为,将这些行为标注并加入训练数据。这一思路类似于"红队测试",通过主动暴露弱点来强化模型。此外,论文建议将 RLHF 与预训练数据过滤结合——在预训练阶段就过滤掉含明显有害内容的数据,从源头减少模型接触有害模式的机会。论文还建议将 RLHF 与提升真实性的方法(如 WebGPT,Nakano 等 2021)结合,让模型能够引用可信来源、进行事实核查,从而减少幻觉。

第二个方向是训练模型拒绝有害或 dishonest 请求。InstructGPT 在用户请求潜在有害回答时仍会生成这些输出,这一行为在部署中构成风险。论文提出,可以训练模型在识别到有害请求时"拒绝回答"或"提供安全替代"。然而,"什么是有害请求"本身是一个复杂判断——某些请求在特定上下文中合理(如医学研究中的化学合成信息),在另一些上下文中危险(如个人恶意使用)。如何让模型具备这种上下文敏感的判断能力,是重要的开放问题。

第三个方向是改进标注体系。论文建议对同一比较对进行多次标注以识别分歧区域,并在分歧情况下采用更精细的加权策略(如对受影响群体赋予更高权重)。此外,可以引入"专家标注员"——在专业领域(医学、法律、金融)使用领域专家进行标注,以提升这些领域评估的准确性。这些改进会增加成本,但能显著提升对齐质量。

第四个方向是扩展对齐的"目标人群"。论文承认当前标注员群体代表性不足,未来应纳入更多元化的标注员,覆盖不同语言、文化、专业背景。更激进的方向是让模型用户自身参与对齐——例如,让用户对模型输出进行反馈,将这些反馈作为持续对齐的信号。这一思路在后续的 RLHF 在线学习、用户反馈微调等工作中得到探索。

第五个方向是研究对齐的可扩展性。论文指出,InstructGPT 表现出"训练分布外泛化"能力,但需要更多研究来考察这种泛化如何随模型能力提升而扩展。随着模型能力增强,它可能学会"欺骗"奖励模型——即生成奖励模型给高分但实际低质的输出(奖励黑客)。如何在高能力模型上保持对齐的有效性,是 Christiano 等(2021)提出的"可扩展监督"(scalable oversight)研究的核心问题。

7.4 更广泛的社会影响与治理思考

论文最后将视角从技术层面提升到社会层面,讨论了大语言模型对齐的更广泛影响与治理思考。这些思考超越了纯技术范畴,涉及 AI 治理、权力分配、社会公平等深层议题。

首先是模型部署模式的权衡。论文讨论了三种部署模式:完全开源、限制访问、API 提供。完全开源能最大化技术民主化,但增加恶意使用风险;限制访问能控制风险,但加剧技术垄断;API 提供能在安全与可及性之间折中,但降低透明度并集中权力。没有一种模式是完美的,需要根据模型能力、社会准备度、监管框架等因素综合权衡。这一思考在 InstructGPT 发表后愈发紧迫——随着开源大模型(Llama、Mistral 等)的兴起,开源与封闭的张力成为 AI 治理的核心议题。

其次是对齐目标的社会协商。论文指出,"对齐到谁"的问题没有纯技术答案,需要社会多方参与协商。不同利益相关方(用户、开发者、监管者、受影响群体)对"对齐"可能有不同理解,如何在这些理解之间达成平衡,是 AI 治理的核心挑战。这一思考催生了"参与式对齐"等研究方向,试图通过民主化流程让更多利益相关方参与对齐目标的定义。

最后是对齐研究的长期意义。论文将 InstructGPT 定位为"用对齐技术微调语言模型以遵循广泛指令的第一步"。随着 AI 能力的持续提升,对齐问题将愈发重要——未来的高能力 AI 系统可能具备自我改进、目标修改等能力,对齐这些系统将比当前的语言模型对齐复杂得多。InstructGPT 验证了 RLHF 在当前能力水平下的有效性,但能否扩展到更高能力水平,仍是开放问题。这一"可扩展对齐"挑战,是 AI 安全研究的长远课题。

综上所述,InstructGPT 不仅是一项技术贡献,更是一面镜子,映照出大模型时代对齐问题的复杂性与紧迫性。它证明了 RLHF 的工程可行性,也暴露了其固有局限;它确立了"预训练—SFT—RLHF"的范式,也启发了大量后续改进;它将"对齐"从抽象概念推向工程实践,也将"对齐到谁"的伦理追问摆到了研究者面前。正是这些多维度的贡献,使 InstructGPT 成为理解当代大模型不可或缺的里程碑工作。


参考文献

  1. Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.

  2. Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[C]. Advances in Neural Information Processing Systems (NeurIPS), 2020, 33: 1877-1901.

  3. Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 9.

  4. Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

  5. Schulman J, Levine S, Moritz P, et al. Trust region policy optimization[C]. International Conference on Machine Learning (ICML), 2015: 1889-1897.

  6. Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[C]. Advances in Neural Information Processing Systems (NeurIPS), 2017, 30: 4299-4307.

  7. Stiennon N, Ouyang L, Wu J, et al. Learning to summarize with human feedback[C]. Advances in Neural Information Processing Systems (NeurIPS), 2020, 33: 3008-3021.

  8. Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint arXiv:1909.08593, 2019.

  9. Wei J, Bosma M, Zhao V Y, et al. Finetuned language models are zero-shot learners[C]. International Conference on Learning Representations (ICLR), 2022.

  10. Sanh V, Webson A, Raffel C, et al. Multitask prompted training enables zero-shot task generalization[C]. International Conference on Learning Representations (ICLR), 2022.

  11. Lin S, Hilton J, Evans O. TruthfulQA: Measuring how models mimic human falsehoods[C]. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL), 2022: 3214-3252.

  12. Gehman S, Gururangan S, Sap M, et al. RealToxicityPrompts: Evaluating neural toxic degeneration in language models[C]. Findings of the Association for Computational Linguistics: EMNLP, 2020: 3356-3369.

  13. Nangia N, Vania C, Bhalerao R, et al. CrowS-Pairs: A challenge dataset for measuring social biases in masked language models[C]. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020: 1953-1967.

  14. Nakano R, Hilton J, Balaji S, et al. WebGPT: Browser-assisted question-answering with human feedback[J]. arXiv preprint arXiv:2112.09332, 2021.

  15. Schulman J, Moritz P, Levine S, et al. High-dimensional continuous control using generalized advantage estimation[C]. International Conference on Learning Representations (ICLR), 2016.

  16. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Advances in Neural Information Processing Systems (NeurIPS), 2017, 30: 5998-6008.

  17. Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[C]. Advances in Neural Information Processing Systems (NeurIPS), 2023, 36.

  18. Bai Y, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[J]. arXiv preprint arXiv:2204.05862, 2022.

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐