学习率与步长

xiaoxiao2023-10-04 23

Introduction

学习率 (learning rate)，控制模型的学习进度：

lr 即 stride (步长) ，即反向传播算法中的 η ：

ωn←ωn−η∂L∂ωn

学习率大小

学习率大学习率小学习速度快慢使用时间点刚开始训练时一定轮数过后副作用1.易损失值爆炸；2.易振荡。1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。一定轮数过后：逐渐减缓。接近训练结束：学习速率的衰减应该在100倍以上。

Note：如果是迁移学习，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4) 在新数据上进行微调。

学习率减缓机制

轮数减缓指数减缓分数减缓英文名step decayexponential decay

1/t1/t 为训练轮数

把脉目标函数损失值曲线

理想情况下曲线应该是滑梯式下降 [绿线]：

曲线初始时上扬 [红线]： Solution：初始学习率过大导致振荡，应减小学习率，并从头开始训练。曲线初始时强势下降没多久归于水平 [紫线]： Solution：后期学习率过大导致无法拟合，应减小学习率，并重新训练后几轮。曲线全程缓慢 [黄线]： Solution：初始学习率过小导致收敛慢，应增大学习率，并从头开始训练。

[1] 解析卷积神经网络—深度学习实践手册 [2] 调整学习速率以优化神经网络训练 [3] 如何找到最优学习率

最新回复(0)