梯度下降
$$ \Theta_{t+1}=\Theta_{t}-\lambda\cdot \frac{\mathrm{d}f(\Theta_{t})}{\mathrm{d}\Theta_{t}} $$
学习率
即 $\lambda$
- 过大:难收敛到最低点
- 过小:收敛速度慢
是重要的 超参数
损失均值
$$ l=\frac{1}{n}\sum_{i=1}^{n} L(x_{i},-\hat{y}_{i},\Theta) $$
随机梯度下降
只选取一个样本进行梯度计算
小批量梯度下降
取小批量样本进行梯度计算