激活函数的作用
激活函数为神经网络引入非线性,使网络能够学习复杂的非线性映射。没有激活函数,多层网络等价于单层线性变换。
ReLU:现代首选
ReLU(Rectified Linear Unit):f(x) = max(0, x)。优势:计算简单、缓解梯度消失、稀疏激活。
ReLU的优点
- 计算效率高:只需比较和阈值操作
- 梯度传播好:正区间梯度恒为1,避免梯度消失
- 稀疏性:负输入输出为零,产生稀疏表示
ReLU的变体
Leaky ReLU:负区间引入小斜率,f(x) = max(αx, x),解决"死神经元"问题。
GELU:高斯误差线性单元,平滑过渡,Transformer架构中广泛使用。
Swish:f(x) = x·sigmoid(x),自门控激活,在某些任务表现优于ReLU。
选择建议
通用场景首选ReLU;深层网络考虑Leaky ReLU;Transformer类模型使用GELU。
激活函数是神经网络的非线性灵魂,决定表达能力与训练效率。