强化学习基础
强化学习(RL)通过与环境交互学习最优策略。核心概念:状态、动作、奖励、策略。目标是最大化累积奖励。
RLHF:人类反馈强化学习
RLHF将人类反馈引入强化学习,用于优化大模型的输出质量。ChatGPT的成功很大程度上归功于RLHF。
三步流程
- 预训练模型:获得基础语言能力
- 奖励模型训练:人类标注偏好,训练奖励模型
- PPO优化:用奖励模型指导策略优化
奖励模型的作用
人类对模型输出进行排序,训练奖励模型学习人类偏好。奖励模型成为RL训练的目标函数。
RLHF让模型学会"什么是好的回答",而非仅仅"如何生成文本"。
关键创新
RLHF解决了监督学习难以定义的问题:什么样的回答是好的?通过人类偏好让模型学会这一标准。