损失函数的角色
损失函数定义学习目标,将模型预测与真实标签的差异量化为可优化的数值。损失函数的选择直接决定模型的优化方向。
交叉熵损失
分类任务首选:L = -Σ y_i log(p_i)。惩罚预测概率与真实标签的偏离,鼓励模型输出高置信度正确预测。
交叉熵优势
- 概率分布匹配:直接优化预测分布与真实分布的距离
- 梯度特性:避免了均方误差的梯度饱和问题
- 与softmax配合:输出层标准组合
均方误差(MSE)
回归任务常用:L = Σ(y - ŷ)^2。简单直观,对大误差惩罚更强。局限性:对异常值敏感,可能导致优化偏差。
定制损失函数
特定场景需要定制目标:对比学习使用对比损失;目标检测使用组合损失(分类+定位);生成模型使用对抗损失。
设计原则
损失函数要与任务目标一致;考虑梯度特性便于优化;必要时组合多个损失项。
损失函数是神经网络学习的指南针,指引优化的方向。