强化学习原理：RLHF如何提升大模型能力

2026-06-0713 分钟

强化学习基础

强化学习(RL)通过与环境交互学习最优策略。核心概念：状态、动作、奖励、策略。目标是最大化累积奖励。

RLHF：人类反馈强化学习

RLHF将人类反馈引入强化学习，用于优化大模型的输出质量。ChatGPT的成功很大程度上归功于RLHF。

三步流程

预训练模型：获得基础语言能力
奖励模型训练：人类标注偏好，训练奖励模型
PPO优化：用奖励模型指导策略优化

奖励模型的作用

人类对模型输出进行排序，训练奖励模型学习人类偏好。奖励模型成为RL训练的目标函数。

RLHF让模型学会"什么是好的回答"，而非仅仅"如何生成文本"。

关键创新

RLHF解决了监督学习难以定义的问题：什么样的回答是好的？通过人类偏好让模型学会这一标准。

相关资源

🔧 技术服务