统计学习方法笔记与习题解答(Chapter6)(一)

    xiaoxiao2023-11-01  147

    文章目录

    逻辑斯谛回归与最大熵模型逻辑斯谛回归模型逻辑斯谛分布二项逻辑斯谛回归模型模型参数估计多项逻辑斯谛回归 最大熵模型联合熵条件熵互信息信息增益相对熵 (KL 散度)最大熵模型的学习

    逻辑斯谛回归与最大熵模型

    logistic regression是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型(maxium entropy model)这两种模型都属于对数线性模型

    逻辑斯谛回归模型

    二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布。分类问题,可以表示成one-hot的形式,而one-hot可以认为是一种确定概率的表达。而最大熵模型,是一种不确定的概率表达,其中这个概率,是一个条件概率,是构建的特征函数生成的概率。

    逻辑斯谛分布

    X X X是连续随机变量, X X X服从逻辑斯谛分布 F ( x ) = P ( X ⩽ x ) = 1 1 + exp ⁡ ( − ( x − μ ) / γ ) F(x)=P(X\leqslant x)=\frac{1}{1+\exp(-(x-\mu)/\gamma)} F(x)=P(Xx)=1+exp((xμ)/γ)1

    关于逻辑斯谛, 更常见的一种表达是Logistic function σ ( z ) = 1 1 + exp ⁡ ( − z ) \sigma(z)=\frac{1}{1+\exp(-z)} σ(z)=1+exp(z)1

    这个函数把实数域映射到(0, 1)区间,这个范围正好是概率的范围, 而且可导,对于0输入, 得到的是0.5,可以用来表示等可能性。

    二项逻辑斯谛回归模型

    二项逻辑斯谛回归模型是如下的条件概率分布:(这里的 w w w是对扩充的权值向量,包含参数 b b b) P ( Y = 1 ∣ x ) = exp ⁡ ( w ⋅ x ) 1 + exp ⁡ ( w ⋅ x ) = exp ⁡ ( w ⋅ x ) / exp ⁡ ( w ⋅ x ) ( 1 + exp ⁡ ( w ⋅ x ) ) / ( exp ⁡ ( w ⋅ x ) ) = 1 e − ( w ⋅ x ) + 1 P ( Y = 0 ∣ x ) = 1 1 + exp ⁡ ( w ⋅ x ) = 1 − 1 1 + e − ( w ⋅ x ) = e − ( w ⋅ x ) 1 + e − ( w ⋅ x ) \begin{aligned} P(Y=1|x)&=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\ &=\frac{\exp(w\cdot x)/\exp(w\cdot x)}{(1+\exp(w\cdot x))/(\exp(w\cdot x))}\\ &=\frac{1}{e^{-(w\cdot x)}+1}\\ P(Y=0|x)&=\frac{1}{1+\exp(w\cdot x)}\\ &=1-\frac{1}{1+e^{-(w\cdot x)}}\\ &=\frac{e^{-(w\cdot x)}}{1+e^{-(w\cdot x)}} \end{aligned} P(Y=1x)P(Y=0x)=1+exp(wx)exp(wx)=(1+exp(wx))/(exp(wx))exp(wx)/exp(wx)=e(wx)+11=1+exp(wx)1=11+e(wx)1=1+e(wx)e(wx)

    模型参数估计

    应用极大似然估计法估计模型参数,从而得到回归模型,具体步骤为求对数似然函数,并对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值

    L ( w ) = ∑ i = 1 N [ y i log ⁡ π ( x i ) + ( 1 − y i ) log ⁡ ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − log ⁡ ( 1 + exp ⁡ ( w ⋅ x i ) ) ] \begin{aligned} L(w)&=\sum_{i=1}^N[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))]\\ \end{aligned} L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))]

    上述过程将 P ( Y = 1 ∣ x ) = π ( x ) P(Y=1|x)=\pi(x) P(Y=1x)=π(x)代入 L ( w ) L(w) L(w)中,从而对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值,这样问题就变成了以对数似然函数为目标函数的最优化问题。通常采用的方法是梯度下降法以及拟牛顿法。

    多项逻辑斯谛回归

    假设离散型随机变量 Y Y Y的取值集合是 1 , 2 , … , K {1,2,\dots,K} 1,2,,K, 多项逻辑斯谛回归模型是 P ( Y = k ∣ x ) = exp ⁡ ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) , k = 1 , 2 , … , K − 1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ⁡ ( w k ⋅ x ) \begin{aligned} P(Y=k|x)&=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}, k=1,2,\dots,K-1\\ P(Y=K|x)&=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\ \end{aligned} P(Y=kx)P(Y=Kx)=1+k=1K1exp(wkx)exp(wkx),k=1,2,,K1=1+k=1K1exp(wkx)1上述两式和为1

    最大熵模型

    最大熵模型是由最大熵原理推导实现的,而最大熵原理是概率模型的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型就是最好的模型。通常用约束条件来确定概率模型的集合。

    联合熵

    H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) = H ( X ∣ Y ) + H ( Y ∣ X ) + I ( X ; Y ) H(X, Y) = H(X) + H(Y|X) = H(Y)+H(X|Y) = H(X|Y)+H(Y|X)+I(X;Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)=H(XY)+H(YX)+I(X;Y)

    如果 X X X Y Y Y独立同分布,联合概率分布 P ( X , Y ) = P ( X ) P ( Y ) P(X,Y)=P(X)P(Y) P(X,Y)=P(X)P(Y)

    条件熵

    条件熵是最大熵原理提出的基础,最大的是条件熵,书中(定义6.3)

    条件熵衡量了条件概率分布的均匀性

    p ∗ = arg ⁡ max ⁡ p ∈ C H ( p ) = arg ⁡ max ⁡ p ∈ C ( − ∑ x , y p ~ ( x ) p ( y ∣ x ) log ⁡ p ( y ∣ x ) ) \begin{aligned} p^*&=\arg\max\limits_{p\in \mathcal C}H(p)\\ &=\arg \max\limits_{p\in \mathcal C}(-\sum\limits_{x,y} {\tilde p(x)p(y|x)\log p(y|x) }) \end{aligned} p=argpCmaxH(p)=argpCmax(x,yp~(x)p(yx)logp(yx))

    互信息

    互信息(mutual information),对应熵里面的交集,常用来描述差异性

    一般的,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(YX)之差称为互信息

    相关性主要刻画线性,互信息刻画非线性

    互信息和条件熵之间的关系 I ( x , y ) = H ( x ) − H ( x ∣ y ) = H ( y ) − H ( y ∣ x ) I(x,y)=H(x)-H(x|y)=H(y)-H(y|x) I(x,y)=H(x)H(xy)=H(y)H(yx)

    信息增益

    这个对应的是Chapter5的内容,决策树学习应用信息增益准则选择特征 g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)

    信息增益表示得知 X X X的信息而使类 Y Y Y的信息的不确定性减少的程度。

    在决策树学习中,信息增益等价于训练数据集中类与特征的互信息。

    相对熵 (KL 散度)

    相对熵(Relative Entropy)描述差异性,从分布的角度描述差异性,可用于度量两个概率分布之间的差异

    KL散度不是一个度量,度量要满足交换性

    KL散度满足非负性

    最大熵模型的学习

    最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优的问题。自然而然想到了拉格朗日,这里用到了拉格朗日的对偶性,将原始问题转化为对偶问题,通过解对偶问题而得到原始问题的解。简单来说,约束最优化问题包含 ⩽ 0 \leqslant0 0,和 = 0 =0 =0两种约束条件 min ⁡ x ∈ R n f ( x ) s . t . c i ( x ) ⩽ 0 , i = 1 , 2 , … , k h j ( x ) = 0 , j = 1 , 2 , … , l \begin{aligned} \min_{x \in R^n}\quad &f(x) \\ s.t.\quad&c_i(x) \leqslant 0 , i=1,2,\ldots,k\\ &h_j(x) = 0 , j=1,2,\ldots,l \end{aligned} xRnmins.t.f(x)ci(x)0,i=1,2,,khj(x)=0,j=1,2,,l引入广义拉格朗日函数

    L ( x , α , β ) = f ( x ) + ∑ i = 0 k α i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum_{i=0}^k \alpha_ic_i(x) + \sum_{j=1}^l \beta_jh_j(x) L(x,α,β)=f(x)+i=0kαici(x)+j=1lβjhj(x)

    在KKT的条件下,原始问题和对偶问题的最优值相等 ∇ x L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ α L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ β L ( x ∗ , α ∗ , β ∗ ) = 0 α i ∗ c i ( x ∗ ) = 0 , i = 1 , 2 , … , k c i ( x ∗ ) ≤ 0 , i = 1 , 2 , … , k α i ∗ ≥ 0 , i = 1 , 2 , … , k h j ( x ∗ ) = 0 , j = 1 , 2 , … , l ∇_xL(x^∗,α^∗,β^∗)=0\\ ∇_αL(x^∗,α^∗,β^∗)=0\\ ∇_βL(x^∗,α^∗,β^∗)=0\\ α_i^∗c_i(x^*)=0,i=1,2,…,k\\ c_i(x^*)≤0,i=1,2,…,k\\ α^∗_i≥0,i=1,2,…,k\\ h_j(x^∗)=0,j=1,2,…,l xL(x,α,β)=0αL(x,α,β)=0βL(x,α,β)=0αici(x)=0,i=1,2,,kci(x)0,i=1,2,,kαi0,i=1,2,,khj(x)=0,j=1,2,,l

    前面三个条件是由解析函数的知识,对于各个变量的偏导数为0,后面四个条件就是原始问题的约束条件以及拉格朗日乘子需要满足的约束,第四个条件是KKT的对偶互补条件

    回到最大熵模型的学习,书中详细介绍了约束最优化问题

    L ( P , w ) L(P, w) L(P,w) P P P求偏导并令其为零解得 P ( y ∣ x ) = exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) + w 0 − 1 ) = exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) exp ⁡ ( 1 − w 0 ) P(y|x)=\exp{\left(\sum_{i=1}^{n}w_if_i(x,y)+w_0-1\right)}=\frac{\exp{\left(\sum\limits_{i=1}^{n}w_if_i(x,y)\right)}}{\exp{\left(1-w_0\right)}} P(yx)=exp(i=1nwifi(x,y)+w01)=exp(1w0)exp(i=1nwifi(x,y))

    因为 ∑ y P ( y ∣ x ) = 1 \sum\limits_{y}P(y|x)=1 yP(yx)=1,然后得到模型

    P w ( y ∣ x ) = 1 Z w ( x ) exp ⁡ ∑ i = 1 n w i f i ( x , y ) P_w(y|x)=\frac{1}{Z_w(x)}\exp{\sum\limits_{i=1}^{n}w_if_i(x,y)}\\ Pw(yx)=Zw(x)1expi=1nwifi(x,y) 其 中 , Z w ( x ) = ∑ y exp ⁡ ( ∑ i = 1 n w i f i ( x , y ) ) 其中,Z_w(x)=\sum_{y}\exp({\sum_{i=1}^{n}w_if_i(x,y))} Zw(x)=yexp(i=1nwifi(x,y))

    这里 Z w ( x ) Z_w(x) Zw(x)先用来代替 exp ⁡ ( 1 − w 0 ) \exp(1-w_0) exp(1w0), Z w Z_w Zw是归一化因子

    并不是因为概率为1推导出了 Z w Z_w Zw的表达式,这样一个表达式是凑出来的,意思就是遍历 y y y的所有取值,求分子表达式的占比

    对偶函数的极大化等价于最大熵模型的极大似然估计

    已知训练数据的经验分布 P ~ ( X , Y ) \widetilde {P}(X,Y) P (X,Y),条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)的对数似然函数表示为

    L P ~ ( P w ) = log ⁡ ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) log ⁡ P ( y ∣ x ) L_{\widetilde {P}}(P_w)=\log\prod_{x,y}P(y|x)^{\widetilde {P}(x,y)}=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x) LP (Pw)=logx,yP(yx)P (x,y)=x,yP (x,y)logP(yx)

    当条件分布概率 P ( y ∣ x ) P(y|x) P(yx)是最大熵模型时

    L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) log ⁡ P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x , y ) log ⁡ ( Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x ) P ( y ∣ x ) log ⁡ ( Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ ( Z w ( x ) ) ∑ y P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ ( Z w ( x ) ) \begin{aligned} L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))} \end{aligned} LP (Pw)=x,yP (x,y)logP(yx)=x,yP (x,y)i=1nwifi(x,y)x,yP (x,y)log(Zw(x))=x,yP (x,y)i=1nwifi(x,y)x,yP (x)P(yx)log(Zw(x))=x,yP (x,y)i=1nwifi(x,y)xP (x)log(Zw(x))yP(yx)=x,yP (x,y)i=1nwifi(x,y)xP (x)log(Zw(x))

    推导过程用到了 ∑ y P ( y ∣ x ) = 1 \sum\limits_yP(y|x)=1 yP(yx)=1
    最新回复(0)