强化学习基础
强化学习(RL)通过与环境交互学习最优策略:智能体观察状态,选择动作,获得奖励,目标是最大化累积奖励。
核心概念:状态空间S、动作空间A、奖励函数R、策略π。马尔可夫决策过程(MDP)是RL的数学框架。
深度强化学习
深度强化学习(DRL)用神经网络表示策略或价值函数,处理高维状态空间。突破传统RL的特征工程限制。
核心算法
- DQN:用神经网络近似Q函数,引入经验回放稳定训练
- Policy Gradient:直接优化策略参数,学习动作概率分布
- Actor-Critic:结合价值评估和策略优化,平衡稳定性和效率
DQN创新
经验回放:存储历史经验随机采样,打破数据相关性;目标网络:固定Q目标,减少训练震荡。
现代DRL
PPO:限制策略更新幅度,稳定训练;SAC:引入熵正则化,鼓励探索;MuZero:无需环境模型,自学习状态表示。
应用场景
游戏AI、机器人控制、自动驾驶、推荐系统。DRL擅长解决序列决策问题。
深度强化学习让机器学会自主决策,在复杂环境中探索最优策略。