最优化

xiaoxiao2025-04-30 51

文章目录

线性规划非线性规划无约束非线性规划直接法解析法最速下降法梯度类方法梯度下降回溯线性搜索：exact line serach（最速下降法） subgradient descent proximal gradient descent 近端梯度下降牛顿法共轭梯度法软阈值下降有约束非线性规划罚函数法外点法内点法乘子法二次规划梯度类方法

线性规划

非线性规划

无约束非线性规划

直接法

解析法

最速下降法

梯度类方法

梯度的负方向是函数下降最快的方向，但是常用的梯度下降必须要求函数的连续可导，对于某些连续不可导的问题，则需要次梯度下降和近端梯度下降。

梯度下降

假设 $f (x)$ 可微且凸, 满足 $\nabla f$ 满足L- $L i p s c h i t z$ ,即存在常数L>0,使得 $||\nabla f(x')-\nabla f(x)||_2^2<=L||x'-x||_2^2.......(\forall x,x')$ 则在x附近能将 $f (x)$ 通过二阶泰勒展开近似为: 这里用 $\frac{1}{t}I$ 替换掉 $\nabla^2f(x)$ ，不是两者相等使得 $f (x)$ 最小的值求导后: 对于梯度下降而言，这里的 $t_k$ 可以是我们设置的一个固定步长。梯度下降的另一种证明

这里对于梯度下降主要讨论其步长选择的问题，最简单直接的方式是固定每次的步长为一个恒定值，但是如果步长过大或过小时，可能会导致结果难以收敛或者收敛速度很慢。因此提出了可变长步长的方法，可变长步长的方法指的是根据每次迭代依照一定的规则改变步长.

$t_k$ 同时表示步长，优化中步长过长和过短，会导致结果难以收敛和收敛过慢，故:

回溯线性搜索：

解决的方法就是当步长过大（跨越了最优点）的时候，减小步长，否则保持步长不变。梯度下降，故 $\nabla f(x)^T\triangle x<0$ ，将 $f(x+t\triangle x)$ 泰勒展开， $0<\alpha<0.5$ ，有：这里 $\triangle x$ 就是梯度的方向， $\triangle x=-\nabla f(x)^T$ 当上述条件不满足时，说明我们步子跨大了，前进的多反而值变小了，所以需要后退一点点，后退的大小为： $t=\beta t,0<\beta<1$

https://zhuanlan.zhihu.com/p/37190315

exact line serach（最速下降法）

我们知道，函数下降最快的方向是负梯度方向， $x^{k+1}=x^{k}-\alpha \nabla f(x^{k})$ 此时对步长 $\alpha$ 进行搜索，找出其导数为0时的 $\alpha$ 值 $f(x^{(k+1)})=f(x^{(k)} - \alpha^{(k)}\nabla f(x^{k})) =min\; f(x^{(k)} - \alpha \nabla f(x^{k})) = min\;\varphi(\alpha)$ $\varphi '(\alpha)= \nabla f(x^{(k+1)})-\nabla f(x^{k})=0$ 故 $\nabla f(x^{(k+1)})=\nabla f(x^{k})$ ，也就是说相邻两点的梯度方向是正交的，就会呈现下图的锯齿状。直到其二阶范数 $||\nabla f(x^{(k)})|| \lt \epsilon$ ，停止收敛这种方法也叫最速下降法，特点是一开始下降速度很快，但越接近收敛点则越慢。

subgradient descent

函数 $f(x)=||x||_1$ 其次梯度如下：而 subgradient descent 与 gradient descent 的不同地方就是当函数不可微的时候，将 gradient descent 中更新公式中的 gradient 换成 subgradient。例如下列优化问题：对目标函数求导且等于0，有：则解为： LASSO: 解为: 可以看出,当 $\beta_i \neq0$ 上式并没有一个明确的解.

proximal gradient descent 近端梯度下降

在上面梯度下降中, $f (x)$ 泰勒展开,假设 $f (x)$ 是可微且凸的,但是假如 $f (x)$ 可以不可微,但可以分成两个函数 $f (x) = g (x) + h (x)$ , $h (x)$ 不可微但是凸.则可以表示成下面的形式由于 $g (x)$ 是常数,且在 $x^{+}=z^{k+1}= z_{k}-t\nabla g(z^{k})$ 时, $g (z)$ 是最小的,故 $\nabla g(x^{+})$ 为0,所以: 上式就是近端算子的形式: $z_i= \begin{cases} x_i - \lambda t & x_i > \lambda t \\ 0 & -\lambda t \le x_i \le \lambda t \\ x_i + \lambda t & x_i< -\lambda t \end{cases}$ 有点复杂绕,但还是能推出来的.以后补上. 近端梯度下降比subgradient的优势在于:

对于绝大部分的 h 是易求的,有解析解.

prox_t

仅仅依赖于h，因此可以被用于不同的g函数g可以式任意复杂的函数,只要能求梯度.

牛顿法

实际上在上面的梯度下降那里，梯度下降是用常量替换掉二阶导数，但牛顿法保留了二阶导数， $t=\nabla^2f(x)$ 就是牛顿法的更新策略，其引入了海森矩阵，所以牛顿法式一种二阶方法。海森矩阵在遇到大矩阵时非常难算。梯度下降：牛顿法：黑线为梯度下降，蓝线为牛顿法。

共轭梯度法

绿线：最优的梯度下降；红线：共轭梯度下降若 $A$ 是对称正定阵，若有 $u,v\in R$ ， $u^TAv=0$ ，则 $u, v$ 是关于 $A$ 共轭的。当 $A = I$ 时， $u^Tv=0$ ，所以共轭实际上是正交的一种推广。设 $P=[{p_1,...,p_n}]$ ，如果它们两两关于 $A$ 共轭，则 $P$ 是 $A$ 的一组共轭方向向量，并且可以证明这个向量组线性无关。等值面该点的切向量与其法向量正交，与指向极小值点的向量共轭，法向量不一定指向极小点，这可能是共轭的核心意义。

定理：若有函数 $f(x)=\frac{1}{2}x^TAx+b^Tx+c$ ，若有一组共轭向量 $d=[d_1,...,d_n]$ ，以任意一点 $x^{(1)}$ 开始依次沿着 $d=[d_1,...,d_k]$ 搜索，并得到 $f (x)$ 在 $x^{(2),...,x^{(k)}}$ ，则 $x^{(k+1)}$ 是 $x^{(1)}+B_k$ 上的极小点，其中 $B_k = \{{x|x=\sum_{i=1}^{k}\lambda_id^{(i)},\lambda_i\in R}\}$ 是 $d=[d_1,...,d_k]$ 生成的子空间。sure，当 $k = n$ ， $x^{(k+1)}$ 是 $f (x)$ 在 $R^n$ 上唯一的极小点。

推论：由上面的共轭的几何意义和此定理可以推出， $\nabla f(x^{(k+1)})^T d^{(i)}=0,i=1,2,...,k$ 下面我们考虑一个最优化的问题： $f(x)=\frac{1}{2}x^TAx+b^Tx+c$ 其中A为正定矩阵

取一组共轭方向

x^{(k+1)}=x^{(k)}+\lambda_kd^{(k)}

min_{\lambda} f(x^{(k+1)})

知道某个

x^{k}

满足

\nabla f(x^{k})=0

共轭梯度下降基本思想是将最速下降法（锯齿形下降）结合共轭性，利用已知迭代点的梯度方向造成一组共轭方向，并沿此方向搜索，求出极小值点。任取初始点

x^{(1)}

，第一个搜索方向取为：

d^{(1)}=\nabla f(x^{(1)})

当

\nabla f(x^{(k+1)})!=0

时，确定搜索方向

d^{(k+1)}=-\nabla f(x^{(k)})+\beta_kd^{(k)}

\beta_k

的确定需要引入

d^{(k)},d^{(k)+1}

是共轭的，

0=d^{(k)^T}Ad^{(k+1)}=-d^{(k)^T}A\nabla f(x^{(k)})+d^{(k)^T}A\beta_kd^{(k)}

解得：

\beta_k=\frac{d^{(k)^T}A\nabla f(x^{(k)})}{d^{(k)^T}Ad^{(k)}}

确定搜索步长

min_{\lambda}f(x^{k}+\lambda_kd^{(k)})

，用一维搜索即可。（求导）：

\lambda_k=-\frac{\nabla f(x^{(k)})d^{(k)}}{d^{(k)^T}Ad^{(k)}}

如上，就是共轭梯度下降的过程。总结下来就是：利用变形的正交方向的共轭方向，能快速定位极值，因此在最速下降（特殊的梯度下降）的基础上选取共轭方向，能够在每一次迭代都找到这个方向的最优解。

软阈值下降

有约束非线性规划

罚函数法

外点法

内点法

乘子法

二次规划

梯度类方法

特别感谢: http://wulc.me/2017/05/20/凸优化总结/ https://blog.csdn.net/zbwgycm/article/details/83060251 http://www.stat.cmu.edu/~ryantibs/convexopt/ https://keson96.github.io/2016/11/27/2016-11-27-Conjugate-Gradient-Method/ https://alkane0050.fun/2019/05/18/共轭梯度法初步/

最新回复(0)