深度学习中的优化算法

xiaoxiao2023-11-27 167

如何确定mini-batch的大小？

64， 128， 256，。。。。。。数据大小适应CPU / GPU内存的大小

$v_t = \beta v_{t-1} + (1-\beta) \theta_t$ $\theta_t$ 是原始数据， $v_t$ 是构造的新数据。

加入偏差校正 $v_t = \frac{v_t}{1-\beta^t}$

$\beta v + (1-\beta)\nabla w$

$\alpha v$

RMSProp在梯度累积的时候，会对“过去”与“现在”做一个平衡 $\theta_t = \beta\theta_t + (1+\beta)(\nabla w_t)^2$

$w_t = w_t -\frac{\alpha}{\sqrt{\theta_t+\delta}}\nabla w_t$

将动量与RMSprop结合起来。

$\beta_1 v + (1-\beta_1) \nabla w$

$\theta = \beta_2 \theta + (1-\beta_2)(\nabla w)^2$

更新参数 $\frac{\alpha}{\sqrt{\theta+\delta}}v$

开始时梯度会很小， $v$ 和 $\theta$ 经常会接近0，因此需要进行校正： $\frac{v}{1-\beta^t_1},\quad \theta = \frac{\theta}{1-\beta^t_2}$

$\alpha = \frac{1}{1+decay\_rate \times epoch}\alpha_0$

最新回复(0)