强化学习

强化学习原理:RLHF如何提升大模型能力

2026-06-0713 分钟

强化学习基础

强化学习(RL)通过与环境交互学习最优策略。核心概念:状态、动作、奖励、策略。目标是最大化累积奖励。

RLHF:人类反馈强化学习

RLHF将人类反馈引入强化学习,用于优化大模型的输出质量。ChatGPT的成功很大程度上归功于RLHF。

三步流程

  1. 预训练模型:获得基础语言能力
  2. 奖励模型训练:人类标注偏好,训练奖励模型
  3. PPO优化:用奖励模型指导策略优化

奖励模型的作用

人类对模型输出进行排序,训练奖励模型学习人类偏好。奖励模型成为RL训练的目标函数。

RLHF让模型学会"什么是好的回答",而非仅仅"如何生成文本"。

关键创新

RLHF解决了监督学习难以定义的问题:什么样的回答是好的?通过人类偏好让模型学会这一标准。