正则化与优化 | 深度学习博客

过拟合的本质

过拟合指模型在训练数据表现优异，但在测试数据性能下降。原因：模型过度学习训练数据的噪声和特定模式。

Dropout随机"丢弃"神经元：训练时每个神经元以概率p被临时禁用。迫使网络学习鲁棒特征，减少神经元共适应。

批归一化对每层输入进行标准化：y = γ·(x-μ)/σ + β。加速训练、缓解梯度问题、提供轻微正则化效果。

L1/L2正则化：在损失函数添加权重惩罚项；数据增强：扩充训练数据多样性；早停(Early Stopping)：监控验证集停止训练。

组合使用多种正则化技术；Dropout率通常0.2-0.5；BatchNorm配合适当学习率可加速收敛。

正则化是深度学习的免疫系统，防止模型过度拟合训练数据。