核心组件

激活函数深度解析:ReLU及其变体

2026-06-0811 分钟

激活函数的作用

激活函数为神经网络引入非线性,使网络能够学习复杂的非线性映射。没有激活函数,多层网络等价于单层线性变换。

ReLU:现代首选

ReLU(Rectified Linear Unit):f(x) = max(0, x)。优势:计算简单、缓解梯度消失、稀疏激活。

ReLU的优点

ReLU的变体

Leaky ReLU:负区间引入小斜率,f(x) = max(αx, x),解决"死神经元"问题。

GELU:高斯误差线性单元,平滑过渡,Transformer架构中广泛使用。

Swish:f(x) = x·sigmoid(x),自门控激活,在某些任务表现优于ReLU。

选择建议

通用场景首选ReLU;深层网络考虑Leaky ReLU;Transformer类模型使用GELU。

激活函数是神经网络的非线性灵魂,决定表达能力与训练效率。