西瓜书第四章学习笔记

xiaoxiao2022-07-02 185

西瓜书第四章学习笔记

文章目录

西瓜书第四章学习笔记知识脉络一些补充4.1 流程4.2 划分选择4.3 剪枝4.4 连续与缺失值4.5 多变量决策树习题习题4.3习题4.4 参考

知识脉络

一些补充

大部分内容在知识脉络都体现出来了，尤其是一些公式，这里仅做一些补充说明。

4.1 流程

决策树（判定树）：这既是一种学习方法，也指学得的树。

4.2 划分选择

属性划分：在划分过程中，每个判定测试序列（路径）对于同一个离散属性最多划分一次。信息熵：信息熵越大系统的不确定性就越大，系统的可能性就越多。Pk：在计算信息熵公式中，对于西瓜数据集，一共只有两类样本：‘好瓜’和‘坏瓜’，|y|=2。基尼指数：直观理解，基尼指数越小‘纯度’越高，数据集中同一类样本占比越大。

4.3 剪枝

预剪枝步骤：首先，依据验证集计算不划分时验证集精度然后，计算依据训练集以某个准则进行划分后的验证集精度最后，比较划分前后的验证集精度，若划分前大于划分后，说明划分导致树泛化性能降低，不进行划分。若划分后大于划分前，说明划分提高了树的泛化性，进行划分后剪枝步骤：首先，生成完整的树其次，自下而上考察，将内部节点替换为叶节点，计算替换前后的验证集精度最后，进行比较，若替换前验证集精度大于划分后，说明替换导致树泛化性能降低，不进行替换，保留原来子树。若替换后验证集精度大于替换前，说明替换提高了树的泛化性，进行替换

4.4 连续与缺失值

Ta：候选划分点的集合，每个划分点都是原相邻两特征取值点的中位数，对Ta中每个划分点都计算以其为分割点二分后信息增益，取使信息最大的分割点为作为分支的划分解决第一个问题：样本有缺失值如何划分？：依据样本集中该属性上无缺数据的加权来计算改属性的信息增益，最终确定如何划分解决第二个问题：测试样本在属性值上有缺失，如何划分测试样本？：用无缺样本的属性值的分布来估计缺失样本属性值的可能分布，对缺失测试样本进行加权，以不同的概率划分到不同的子节点中去，所有的概率加和为1

4.5 多变量决策树

单变量决策树轴平行原因：因为其内部节点中只依据一种特征进行划分多变量决策树和单变量决策树差别：多变量决策树学习（神金网络）过程中不是为每个非叶节点寻找一个最优划分属性，而是对属性的线性组合进行测试，建立一个合适的线性分类器

习题

习题4.3

基于Python3.0的决策树手写算法实现和对西瓜书第四章决策树习题4.3的回答

习题4.4

参考

周志华. (2016). 机器学习. 清华大学出版社, 北京

最新回复(0)