激活函数

概览

  • sgn $$\mathrm{sgn}(x)=\left{\begin{align} & 1, & x>0 \ & 0, & x=0 \ & -1, & x<0\end{align}\right. $$

  • sigmoid $$\sigma(x)=\mathrm{sigmoid}(x)=\frac{1}{1+\exp(-x)}$$ image.png

  • tanh $$\tanh (x)=\frac{1-\exp(-2x)}{1+\exp(-2x)}$$ image.png

  • ReLU $$\mathrm{ReLU}(x)=\mathrm{max}(x,0)$$ image.png

  • Leaky ReLU $$\mathrm{LeakyReLU}(x)=\left{\begin{align} & x, & x>0\ & \alpha x, & x\leq 0 \end{align}\right.$$ 其中 $\alpha$ 很小,$\to 0$,经验上 $\alpha=0.01$ 或者 $\alpha\sim N(0,1)$ image.png

  • ELU $$\mathrm{ELU}(x)=\left{\begin{align} & x, & x>0 \ & \alpha(e^{x}-1), & x\leq 0\end{align}\right.$$ image.png

  • Swish $$\mathrm{Swish}(x)=x\cdot\sigma(\beta \cdot x)$$ image.png

对比

激活函数 优点 缺点
sigmoid 单侧分布
双侧饱和
tanh 双侧分布 双侧饱和
ReLU 单侧饱和 未双侧分布
Dying ReLU
Leaky ReLU 双侧分布
ELU 单侧饱和
双侧分布
Swish 单侧饱和
双侧分布
梯度饱和

指激活函数某些域下梯度 $\to 0$ 的现象 导致梯度下降慢,模型收敛效果差,甚至失活

BP 失活

指梯度为 $0$, 梯度下降法 更新权重参数时为 $0$ 的现象

e.g. Dying ReLU

ReLU

LeakyReLU

随机 LeakyReLU

把 $\alpha$ 随机取值,总体上 $\alpha \sim N(0,1)$

PReLU

把 $\alpha$ 作为需要学习的参数

ELU