机器学习笔记——9 模型选择与特征选择

xiaoxiao2025-04-26 54

机器学习笔记——9 模型选择与特征选择

对于一个学习问题，往往我们有不同的模型可以选择，本文首先介绍两种模型选择(model selection) 的通用做法，分别是交叉验证法(cross validation)和k重交叉验证法(k-folds cross validation)。本文的第二部分介绍了两种特征选择(feature selection) 的方法，分别是包围式特征选择(wapper feature selection) 以及过滤式特征选择(filter feature selection)。

模型选择

在前面我们看到了选择模型时，需要对模型的偏差和方差进行权衡，现在假设我们选用的模型集合为 $M = \{M_1,...，M_k\}$ ，如果我们仅仅是对每一类模型 $M_i$ 进行训练，得到一些假设 $h_i$ 。最后在各个 $h_i$ 中挑选出具有最小经验误差的 $h^*$ 作为结果，那么显然我们会倾向于那些比较复杂的模型 $M^*$ 。

交叉验证法

交叉验证法比较好的解决了这个问题，我们将样本集分为 $S_{train}$ ， $S_{cv}$ 。然后利用 $S_{train}$ 在模型 $M_i$ 中训练出假设 $h_i$ ，最后选择在 $S_{cv}$ 上经验误差最小的假设 $h^*$ ，因此 $S_{cv}$ 上的经验误差是泛化误差的一个更好的估计，一般而言我们需要将样本集划分为70%和30%，这也带来一个问题，即我们总会浪费掉一部分样本，因此就有了下面的模型选择方法。

k重交叉验证法

我们样本集 $S$ 等分为 $S_1，... ，S_k$ ，然后对于模型 $M_i$ ，在样本集 $S_1\cup...\cup S_{j-1} \cup S_{j+1} \cup ...S_k$ ，训练出假设 $h_{ij}$ ，然后计算在 $S_j$ 上的经验误差 $\hat{\epsilon}_{S_j}(h_{ij})$ ，最后利用各个 $\hat{\epsilon}_{S_j}(h_{ij})$ 的平均作为模型 $M_i$ 的泛化误差的估计。一般情况下，我们选择 $k = 10$ 。k重交叉验证法的一个缺点是计算成本比较大，它需要k轮，但优点在于它在选择模型的过程中，没有造成样本的浪费。在一些样本来源方便，并且样本量很多的情况下，我们可以直接用交叉验证法。

特征选择

对于高维数据，有时候其中仅仅只有少量的维度与我们关注的属性值相关，我们称这些属性为特征，我们需要一种方法筛选出特征，否则过拟合将会是我们面临的一个潜在问题。

包围式特征选择(wrapper feature selection)

逐个添加特征，并利用交叉验证法验证对当前的 $F_i$ 进行检验，最后选择合适的特征集合 $F$ 。

过滤式特征选择(filter feature selection)

在这种方法下，我们针对每一个属性 $x_i$ ，计算一个属性特征系数 $S (i)$ ，最后我们根据 $S (i)$ 对所有属性 $x_i$ 进行排序，然后选择前面的k个属性作为特征。一般而言，我们计算 $S (i)$ 可以有多种方法，一种可能的方法是计算其 $x_i$ 与 $y$ 的相关系数。但是在实际中，更多采用的是计算 $x_i$ 与 $y$ 的互信息(mutual information)，即 $MI(x_i,y) = \sum_{x_i}\sum_{y}p(x_i,y)\log{\frac{p(x_i,y)}{p(x_i)p(y)}}$ 。

最新回复(0)