X X X是连续随机变量, X X X服从逻辑斯谛分布 F ( x ) = P ( X ⩽ x ) = 1 1 + exp ( − ( x − μ ) / γ ) F(x)=P(X\leqslant x)=\frac{1}{1+\exp(-(x-\mu)/\gamma)} F(x)=P(X⩽x)=1+exp(−(x−μ)/γ)1
关于逻辑斯谛, 更常见的一种表达是Logistic function σ ( z ) = 1 1 + exp ( − z ) \sigma(z)=\frac{1}{1+\exp(-z)} σ(z)=1+exp(−z)1
这个函数把实数域映射到(0, 1)区间,这个范围正好是概率的范围, 而且可导,对于0输入, 得到的是0.5,可以用来表示等可能性。
L ( w ) = ∑ i = 1 N [ y i log π ( x i ) + ( 1 − y i ) log ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − log ( 1 + exp ( w ⋅ x i ) ) ] \begin{aligned} L(w)&=\sum_{i=1}^N[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))]\\ \end{aligned} L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]
上述过程将 P ( Y = 1 ∣ x ) = π ( x ) P(Y=1|x)=\pi(x) P(Y=1∣x)=π(x)代入 L ( w ) L(w) L(w)中,从而对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值,这样问题就变成了以对数似然函数为目标函数的最优化问题。通常采用的方法是梯度下降法以及拟牛顿法。H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) = H ( X ∣ Y ) + H ( Y ∣ X ) + I ( X ; Y ) H(X, Y) = H(X) + H(Y|X) = H(Y)+H(X|Y) = H(X|Y)+H(Y|X)+I(X;Y) H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)=H(X∣Y)+H(Y∣X)+I(X;Y)
如果 X X X和 Y Y Y独立同分布,联合概率分布 P ( X , Y ) = P ( X ) P ( Y ) P(X,Y)=P(X)P(Y) P(X,Y)=P(X)P(Y)
条件熵是最大熵原理提出的基础,最大的是条件熵,书中(定义6.3)
条件熵衡量了条件概率分布的均匀性
p ∗ = arg max p ∈ C H ( p ) = arg max p ∈ C ( − ∑ x , y p ~ ( x ) p ( y ∣ x ) log p ( y ∣ x ) ) \begin{aligned} p^*&=\arg\max\limits_{p\in \mathcal C}H(p)\\ &=\arg \max\limits_{p\in \mathcal C}(-\sum\limits_{x,y} {\tilde p(x)p(y|x)\log p(y|x) }) \end{aligned} p∗=argp∈CmaxH(p)=argp∈Cmax(−x,y∑p~(x)p(y∣x)logp(y∣x))
互信息(mutual information),对应熵里面的交集,常用来描述差异性
一般的,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)之差称为互信息
相关性主要刻画线性,互信息刻画非线性
互信息和条件熵之间的关系 I ( x , y ) = H ( x ) − H ( x ∣ y ) = H ( y ) − H ( y ∣ x ) I(x,y)=H(x)-H(x|y)=H(y)-H(y|x) I(x,y)=H(x)−H(x∣y)=H(y)−H(y∣x)
这个对应的是Chapter5的内容,决策树学习应用信息增益准则选择特征 g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
信息增益表示得知 X X X的信息而使类 Y Y Y的信息的不确定性减少的程度。
在决策树学习中,信息增益等价于训练数据集中类与特征的互信息。
相对熵(Relative Entropy)描述差异性,从分布的角度描述差异性,可用于度量两个概率分布之间的差异
KL散度不是一个度量,度量要满足交换性
KL散度满足非负性
L ( x , α , β ) = f ( x ) + ∑ i = 0 k α i c i ( x ) + ∑ j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum_{i=0}^k \alpha_ic_i(x) + \sum_{j=1}^l \beta_jh_j(x) L(x,α,β)=f(x)+i=0∑kαici(x)+j=1∑lβjhj(x)
在KKT的条件下,原始问题和对偶问题的最优值相等 ∇ x L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ α L ( x ∗ , α ∗ , β ∗ ) = 0 ∇ β L ( x ∗ , α ∗ , β ∗ ) = 0 α i ∗ c i ( x ∗ ) = 0 , i = 1 , 2 , … , k c i ( x ∗ ) ≤ 0 , i = 1 , 2 , … , k α i ∗ ≥ 0 , i = 1 , 2 , … , k h j ( x ∗ ) = 0 , j = 1 , 2 , … , l ∇_xL(x^∗,α^∗,β^∗)=0\\ ∇_αL(x^∗,α^∗,β^∗)=0\\ ∇_βL(x^∗,α^∗,β^∗)=0\\ α_i^∗c_i(x^*)=0,i=1,2,…,k\\ c_i(x^*)≤0,i=1,2,…,k\\ α^∗_i≥0,i=1,2,…,k\\ h_j(x^∗)=0,j=1,2,…,l ∇xL(x∗,α∗,β∗)=0∇αL(x∗,α∗,β∗)=0∇βL(x∗,α∗,β∗)=0αi∗ci(x∗)=0,i=1,2,…,kci(x∗)≤0,i=1,2,…,kαi∗≥0,i=1,2,…,khj(x∗)=0,j=1,2,…,l
前面三个条件是由解析函数的知识,对于各个变量的偏导数为0,后面四个条件就是原始问题的约束条件以及拉格朗日乘子需要满足的约束,第四个条件是KKT的对偶互补条件
回到最大熵模型的学习,书中详细介绍了约束最优化问题
在 L ( P , w ) L(P, w) L(P,w)对 P P P求偏导并令其为零解得 P ( y ∣ x ) = exp ( ∑ i = 1 n w i f i ( x , y ) + w 0 − 1 ) = exp ( ∑ i = 1 n w i f i ( x , y ) ) exp ( 1 − w 0 ) P(y|x)=\exp{\left(\sum_{i=1}^{n}w_if_i(x,y)+w_0-1\right)}=\frac{\exp{\left(\sum\limits_{i=1}^{n}w_if_i(x,y)\right)}}{\exp{\left(1-w_0\right)}} P(y∣x)=exp(i=1∑nwifi(x,y)+w0−1)=exp(1−w0)exp(i=1∑nwifi(x,y))
因为 ∑ y P ( y ∣ x ) = 1 \sum\limits_{y}P(y|x)=1 y∑P(y∣x)=1,然后得到模型
P w ( y ∣ x ) = 1 Z w ( x ) exp ∑ i = 1 n w i f i ( x , y ) P_w(y|x)=\frac{1}{Z_w(x)}\exp{\sum\limits_{i=1}^{n}w_if_i(x,y)}\\ Pw(y∣x)=Zw(x)1expi=1∑nwifi(x,y) 其 中 , Z w ( x ) = ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) ) 其中,Z_w(x)=\sum_{y}\exp({\sum_{i=1}^{n}w_if_i(x,y))} 其中,Zw(x)=y∑exp(i=1∑nwifi(x,y))
这里 Z w ( x ) Z_w(x) Zw(x)先用来代替 exp ( 1 − w 0 ) \exp(1-w_0) exp(1−w0), Z w Z_w Zw是归一化因子
并不是因为概率为1推导出了 Z w Z_w Zw的表达式,这样一个表达式是凑出来的,意思就是遍历 y y y的所有取值,求分子表达式的占比
对偶函数的极大化等价于最大熵模型的极大似然估计
已知训练数据的经验分布 P ~ ( X , Y ) \widetilde {P}(X,Y) P (X,Y),条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)的对数似然函数表示为
L P ~ ( P w ) = log ∏ x , y P ( y ∣ x ) P ~ ( x , y ) = ∑ x , y P ~ ( x , y ) log P ( y ∣ x ) L_{\widetilde {P}}(P_w)=\log\prod_{x,y}P(y|x)^{\widetilde {P}(x,y)}=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x) LP (Pw)=logx,y∏P(y∣x)P (x,y)=x,y∑P (x,y)logP(y∣x)
当条件分布概率 P ( y ∣ x ) P(y|x) P(y∣x)是最大熵模型时L P ~ ( P w ) = ∑ x , y P ~ ( x , y ) log P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x , y ) log ( Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x , y P ~ ( x ) P ( y ∣ x ) log ( Z w ( x ) ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ( Z w ( x ) ) ∑ y P ( y ∣ x ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ( Z w ( x ) ) \begin{aligned} L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))} \end{aligned} LP (Pw)=x,y∑P (x,y)logP(y∣x)=x,y∑P (x,y)i=1∑nwifi(x,y)−x,y∑P (x,y)log(Zw(x))=x,y∑P (x,y)i=1∑nwifi(x,y)−x,y∑P (x)P(y∣x)log(Zw(x))=x,y∑P (x,y)i=1∑nwifi(x,y)−x∑P (x)log(Zw(x))y∑P(y∣x)=x,y∑P (x,y)i=1∑nwifi(x,y)−x∑P (x)log(Zw(x))
推导过程用到了 ∑ y P ( y ∣ x ) = 1 \sum\limits_yP(y|x)=1 y∑P(y∣x)=1