梯度下降:优化引擎
梯度下降是深度学习的核心优化算法。核心思想:沿着损失函数梯度的反方向迭代更新参数,逐步逼近最优解。
数学表达:θ = θ - η·∇L(θ),其中η是学习率,∇L是损失函数对参数的梯度。
梯度下降的变体
- 批量梯度下降(BGD):使用全部数据计算梯度,稳定但计算量大
- 随机梯度下降(SGD):每次使用单个样本,快速但噪声大
- 小批量梯度下降(Mini-batch GD):折中方案,实践中最常用
反向传播:梯度计算链
反向传播高效计算神经网络中所有参数的梯度。核心原理:链式法则递归计算每个节点的梯度贡献。
计算图视角:神经网络是一个复杂的计算图,反向传播从输出层逆向传播梯度信息。
理解要点
梯度下降决定优化方向,反向传播提供梯度计算方法。两者结合构成神经网络学习的完整机制。
学习率的选择
学习率η是关键超参数:过大导致震荡甚至发散,过小导致收敛缓慢。现代优化器(Adam等)通过自适应调整学习率缓解这一问题。
梯度下降是深度学习的引擎,反向传播是计算梯度的传动系统。