《统计学习方法》（第一章）—— 统计学习方法概论

xiaoxiao2022-07-14 179

统计学习分类：

1.基本分类：

监督学习无监督学习强化学习

2.按模型分类：

概论模型与非概率模型线性模型与非线性模型

3.按算法分类：

在线学习批量学习

4.按技巧分类：

贝叶斯学习核方法

统计学习三要素：

1.模型：

监督学习过程中，模型就是所有学习的条件概率分布和决策函数

2.策略：

一种评价呢指标损失函数风险函数 or 期望损失经验风险最小化 or 结构风险最小化

3.算法：

学习模型的具体计算方法

模型评估与模型选择：

1.训练误差与测试误差：

在训练集上的平均损失，训练误差在测试集上的平均损失，测试误差

2.过拟合与模型选择：

选择复杂度适当的模型，以达到测试误差最小的模型

正则化与交叉验证：

1.正则化：

经验风险+正则化项(

L_1，L_2

)

2.交叉验证：

交叉验证简单交叉验证7:3S折交叉验证留一交叉验证

泛化能力：

1.泛化误差：

对未知数据的拟合

2.泛化误差上界：

R(f)\le \hat{R}(f)+\varepsilon(d,N,\delta)

\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{d})}

对于二分类问题，当假设空间是有限个函数集合

\Psi=\{f_1,f_2...f_d\}

时，对任意一个函数

\in \Psi

,则至少以概率

1-\delta,0<\delta<1,成立

Hoeffding不等式：设

X_1,X_2.....X_N 是独立随机变量，且X_i \in [a_i,b_i]

i=1,2.....,N,\overline{X}是X_1,X_2.....X_N的经验均值，既\overline{X}=\Large\frac{1}{N}\normalsize\sum\limits^N_{i=1}X_i

P(|\overline{X}-E(\overline{X})|\ge t) \le 2exp(- \frac{2N^2t^2}{\sum\limits^N_{i=1}(b_i-a_i)^2})

P(\overline{X}-E(\overline{X})\ge t) \le exp(- \frac{2N^2t^2}{\sum\limits^N_{i=1}(b_i-a_i)^2})

P(E(\overline{X})- \overline{X} \ge t) \le exp(- \frac{2N^2t^2}{\sum\limits^N_{i=1}(b_i-a_i)^2})

证明：取

X_i=L(Y,f(X)),且X_i \in[0,1],取\varepsilon>0则以下不等式成立：

\hat{R}(f) \ge \varepsilon) \le exp(- 2N{\varepsilon}^2)

由于\Psi=\{f_1,f_2...f_d\}是一个有限集合，故

P(\exists f \in \Psi:R(f)- \hat{R}(f) \ge \varepsilon) \le exp(- 2N{\varepsilon}^2)=P(\bigcup_{f \in \Psi}\{R(f)-\hat{R}(f)\ge \varepsilon\})

\le\sum\limits_{f \in \Psi}P(R(f)-\hat{R}(f)\ge\varepsilon)\le{d*exp(-2N\varepsilon^2)}

取\delta={d*exp(-2N\varepsilon^2)},则P(R(f)<\hat{R}(f)+\varepsilon)\ge1-\delta

R(f)\le \hat{R}(f)+\varepsilon(d,N,\delta)

生成模型与判别模型：

生成模型：生成联合分布的判别模型：直接生成决策函数或条件概率的

监督学习应用：

分类问题

TP——将正类预测为正类数FN——将正类预测为负类数FP——将负类预测为正类数TN——将负类预测为负类数精确率

P=\frac{TP}{TP+FP}

召回率

R=\frac{TP}{TP+FN}

\frac{2}{F1}=\frac{1}{p}+\frac{1}{R}

标注问题:

序列等问题

回归问题

输出变量和输入变量之间的关系 import numpy as np from scipy.optimize import leastsq import matplotlib.pyplot as plt def real_f(x): return np.cos(2*np.pi*x) def poly_f(p,x): f=np.poly1d(p) return f(x) def residuals_f(p,x,y): ret=poly_f(p,x)-y return ret x=np.linspace(0,1,10) x_points=np.linspace(0,1,1000) y_=real_f(x) y=[np.random.normal(0,0.1)+y1 for y1 in y_] def fitting(M=0): p_init=np.random.rand(M+1) ret=leastsq(residuals_f,p_init,args=(x,y)) print(ret[0]) plt.plot(x_points,real_f(x_points),label="real") plt.plot(x_points,poly_f(ret[0],x_points),label="fitting") plt.plot(x,y,"bo",label='noise') plt.legend() plt.show() fitting(M=6) #简单拟合图像

最新回复(0)