数学基础

深度学习的数学基础:梯度下降与反向传播

2026-06-1016 分钟

梯度下降:优化引擎

梯度下降是深度学习的核心优化算法。核心思想:沿着损失函数梯度的反方向迭代更新参数,逐步逼近最优解。

数学表达:θ = θ - η·∇L(θ),其中η是学习率,∇L是损失函数对参数的梯度。

梯度下降的变体

反向传播:梯度计算链

反向传播高效计算神经网络中所有参数的梯度。核心原理:链式法则递归计算每个节点的梯度贡献。

计算图视角:神经网络是一个复杂的计算图,反向传播从输出层逆向传播梯度信息。

理解要点

梯度下降决定优化方向,反向传播提供梯度计算方法。两者结合构成神经网络学习的完整机制。

学习率的选择

学习率η是关键超参数:过大导致震荡甚至发散,过小导致收敛缓慢。现代优化器(Adam等)通过自适应调整学习率缓解这一问题。

梯度下降是深度学习的引擎,反向传播是计算梯度的传动系统。