过拟合的本质
过拟合指模型在训练数据表现优异,但在测试数据性能下降。原因:模型过度学习训练数据的噪声和特定模式。
Dropout
Dropout随机"丢弃"神经元:训练时每个神经元以概率p被临时禁用。迫使网络学习鲁棒特征,减少神经元共适应。
Dropout原理
- 随机禁用:训练时按概率p关闭神经元
- 权重缩放:推理时权重乘以(1-p)补偿
- 等效集成:相当于训练无数子网络的平均
批归一化(BatchNorm)
批归一化对每层输入进行标准化:y = γ·(x-μ)/σ + β。加速训练、缓解梯度问题、提供轻微正则化效果。
其他正则化技术
L1/L2正则化:在损失函数添加权重惩罚项;数据增强:扩充训练数据多样性;早停(Early Stopping):监控验证集停止训练。
实践建议
组合使用多种正则化技术;Dropout率通常0.2-0.5;BatchNorm配合适当学习率可加速收敛。
正则化是深度学习的免疫系统,防止模型过度拟合训练数据。