深度学习的数学基础：梯度下降与反向传播

2026-06-1016 分钟

梯度下降：优化引擎

梯度下降是深度学习的核心优化算法。核心思想：沿着损失函数梯度的反方向迭代更新参数，逐步逼近最优解。

数学表达：θ = θ - η·∇L(θ)，其中η是学习率，∇L是损失函数对参数的梯度。

梯度下降的变体

批量梯度下降(BGD)：使用全部数据计算梯度，稳定但计算量大
随机梯度下降(SGD)：每次使用单个样本，快速但噪声大
小批量梯度下降(Mini-batch GD)：折中方案，实践中最常用

反向传播：梯度计算链

反向传播高效计算神经网络中所有参数的梯度。核心原理：链式法则递归计算每个节点的梯度贡献。

计算图视角：神经网络是一个复杂的计算图，反向传播从输出层逆向传播梯度信息。

理解要点

梯度下降决定优化方向，反向传播提供梯度计算方法。两者结合构成神经网络学习的完整机制。

学习率的选择

学习率η是关键超参数：过大导致震荡甚至发散，过小导致收敛缓慢。现代优化器(Adam等)通过自适应调整学习率缓解这一问题。

梯度下降是深度学习的引擎，反向传播是计算梯度的传动系统。

相关资源

📱 账号服务

微信号购买