pytorch之优化器学习笔记

    xiaoxiao2022-07-03  132

    1.各种优化器的基础了解https://blog.csdn.net/weixin_40170902/article/details/80092628 梯度下降法: 1.标准梯度下降法:GD 每个样本都下降一次,参考当前位置的最陡方向迈进容易得到局部最优,且训练速度慢 2.批量下降法:BGD 不再是一次输入样本调整一次,而是一批量数据后进行调整,模型参数的调整更新与全部输入样本的代价函数的和有关,即下山前掌握附近地势,选择最优方向。 3.随机梯度下降法SGD 在一批数据里随机选取一个样本。如盲人下山,并与用走一次计算一次梯度,总能到山底。但引入的噪声可能使得权值更新放下错误。,没法单独克服局部最优解。 动量优化法 标准动量优化momentum 当前权值的改变会受到上一次权值改变得影响。类似小球下滚得时候带上惯性,加快滚动速度。 NAG牛顿加速梯度 施加当前速度后 ,往标准动量中添加一个校正因子。momentun小球盲目跟从梯度,但nag小球指走到坡底时速度慢下来,知道下一位置大致在哪,来更新当前位置参数。 自适应学习率优化算法 学习率对模型性能有显著影响。 AdaGrad算法 独立地适应所有模型参数地学习率。缩放每个参数反比于所有梯度历史平均值总和地平方根,具有代价函数最大梯度地参数相应地有个快速下降的学习率。小梯度的在学习率上相对较小学习率。 RMSProp 加权平均,避免学习率越来越低问题,而且能自适应地调节学习率。 AdaDelta Adam 2.代码学习https://blog.csdn.net/github_39611196/article/details/82465166

    最新回复(0)