1: L2和L1正则化的区别:
移步:https://blog.csdn.net/red_stone1/article/details/80755144 和https://www.zhihu.com/question/37096933
ps:(自己的理解)通过对L2和L1的公式进行求导,L2在w小于1的时候对参数的惩罚程度会变小,而L1惩罚系数依然是个常数比L2的惩罚力度大,导致更多的w趋近于零。