梯度下降法

梯度下降

$$ \Theta_{t+1}=\Theta_{t}-\lambda\cdot \frac{\mathrm{d}f(\Theta_{t})}{\mathrm{d}\Theta_{t}} $$

学习率

即 $\lambda$

  • 过大:难收敛到最低点
  • 过小:收敛速度慢

是重要的 超参数

损失均值

$$ l=\frac{1}{n}\sum_{i=1}^{n} L(x_{i},-\hat{y}_{i},\Theta) $$

随机梯度下降

只选取一个样本进行梯度计算

小批量梯度下降

取小批量样本进行梯度计算