【机器学习】知识点汇总

xiaoxiao2022-12-05 108

资源：

1、《统计学习方法》代码实现 2、吴恩达机器学习课程笔记 3、七月在线人工智能面试题 4、Datawhale秋招机器学习算法工程师面经 5、AI算法工程师手册—华校专 6、机器学习十大算法系列—July专栏

建议学习顺序：

一、基础知识：

建议阅读：《统计学习方法》第一章：统计学习方法概论 KeyWords：经验风险、结构风险、L1与L2正则化、交叉验证、精确率、召回率

ps： 1、L1先验服从拉普拉斯分布，L2先验服从高斯分布 2、如何评价模型好坏？混淆矩阵、精准率、召回率、准确度、ROC曲线、AUC、基尼系数

二、线性回归（Linear Regression）

建议阅读：《吴恩达机器学习课程笔记》2 & 4 KeyWords：代价函数、批量梯度下降、及其公式推导、单变量到多变量、特征缩放/标准化/归一化

ps： 1、批量梯度下降：每一步，使用所有的训练样本 2、线性回归输出为具体的浮点数

三、逻辑回归（Logistic Regression）

建议阅读：《吴恩达机器学习课程笔记》6 KeyWords：代价函数、极大似然估计、sigmoid、梯度下降求导、多类别分类

ps： 1、逻辑回归是在线性回归（输出范围负无穷到正无穷）的基础上添加了sigmoid函数（输出范围0-1） 2、逻辑回归输出为0-1之间的小数，表示输出变量=1的概率值 3、正样本y=1，负样本y=0 4、逻辑回归的代价函数是通过极大似然估计得到的 5、最大化似然函数等价于最小化log损失函数

四、感知机（Perceptron）

建议阅读：《统计学习方法》第2章 KeyWords：分离超平面、损失函数、误分类点到超平面的距离、随机梯度下降、最优化、对偶形式

ps： 1、随机梯度下降：一次随机选取一个样本点进行参数更新 2、感知机解不唯一，也就是超平面不唯一 3、正样本y=1，负样本y=-1 4、感知机是在线性回归的基础上加了个sign符号函数，输出为-1 or +1

五、支持向量机（SVM）

建议阅读：《统计学习方法》第7章为主，SVM三层境界为辅 KeyWords：线性可分SVM、线性SVM、非线性SVM、核函数、函数间隔、几何间隔、间隔最大化、凸二次规划、支持向量、对偶算法、拉格朗日函数、极大极小问题、KKT条件、硬间隔、软间隔、松弛变量、合页损失函数（hinge）、线性核、多项式核函数、高斯核函数、序列最小最优化算法（SMO）

ps： 1、《统计机器学习》是从感知机扩展到SVM，其从最大间隔这个点出发，《吴恩达机器学习课程笔记》是从逻辑回归的损失函数到SVM的损失函数（合页损失hinge），二者本质上是一样的，角度不同，个人倾向于前者。 2、SVM的输出（符号函数sign）为+1 or -1，二分类 3、正样本+1，负样本-1 4、简要思路

六、k近邻法（kNN）

建议阅读：《统计学习方法》第3章 KeyWords：特征空间划分、k值选择较大或较小、多数表决、kd树

ps： 1、k值较小，模型复杂，过拟合，k值较大，模型简单，欠拟合，通常使用交叉验证原则k 2、多数表决对应于经验风险最小化（无正则） 3、kd树是二叉树，一种快速实现knn的算法 4、树，基本就对应着特征空间的划分

七、决策树（decision tree）

建议阅读：《统计学习方法》第5章 KeyWords：条件概率分布、特征空间划分、特征选择、信息增益、信息增益比、ID3、C4.5、基尼系数、分类与回归树（classification and regression tree, CART）、剪枝。

ps： 1、决策树就是特征空间的划分，一个节点对应一个超矩形 2、特征选择准则：信息增益（ID3）、信息增益比（C4.5）、基尼指数（CART） 3、ID3与C4.5只进行了最优特征选择，注意并不是二叉树，只是一般的树 4、CART是二叉树，进行了最优特征与最优切分点的选择 5、CART利用平方误差就是回归，利用基尼指数就是分类 6、剪枝就是损失函数考虑到了模型复杂度，可以简单理解为极小化加了正则之后的损失函数 7、CART应用非常广泛，经常作为boost方法的基本分类器，如XGBoost

八、提升方法（AdaBoost）

建议阅读：《统计学习方法》第8章为主，Adaboost算法的原理与推导为辅 KeyWords：Adaboost、GBDT、基本弱分类器、强分类器、加权多数表决、样本的权值改变、前向分布算法、加法模型、弱分类器的权值改变、具体算法流程、公式推导、代码实战

请问（决策树、Random Forest、Boosting、Adaboot）GBDT和XGBoost的区别是什么？

ps： 1、Adaboost改变训练样本的权重、弱分类器的权重 2、Adaboost是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法的二类分类方法 3、以决策树为基函数的提升方法是提升树，用梯度近似残差就是梯度提升树（GBDT） 4、注意，GBDT为回归问题，回归树，是boost，但不是Adaboost， 5、Adaboost是最后分类器相加 6、GBDT是每一颗树学的都是之前的数结果和残差，就是用残差代替真实数据供后续的树学习，具体看书中的例子 7、GBDT累加所有树的结果作为最终的结果（浮点数）参考1、参考2

九、朴素贝叶斯法（naive Bayes）

建议阅读：《统计学习方法》第4章 KeyWords：先验概率、后验概率、类条件概率，贝叶斯公式、后验概率最大化、朴素贝叶斯、贝叶斯估计

ps： 1、朴素：条件独立性假设，特征在类确定的条件下都是条件独立的 2、参数估计用的极大似然估计 3、先验概率和类条件概率都是根据数据统计得到的 4、朴素贝叶斯估计可能存在概率值为0的情况，所以出现了贝叶斯估计，就是在概率计算的时候加上一个正数（拉普拉斯平滑），保证不出现概率为0的情况

十、神经网络（Neural Networks）

建议阅读：《吴恩达机器学习课程笔记》8 & 9 KeyWords：前向传播、误差反向传播、各种符号表示、多层、输出层、多类

ps: 1、神经网络的基础是逻辑回归，注意多类分类 2、神经网络的输出目标是k维向量[1 0 0 0]，但是实际输出应该是浮点数[0.9 0.2 0.1 0.1]向量，表示概率 3、误差反向传播公式推导，见附录资料

十一、K-Means聚类

建议阅读：《吴恩达机器学习课程笔记》13 KeyWords：无监督、聚类中心、簇、肘部法则

ps： 1、随机初始化，选择聚类中心；然后计算样例到中心的距离，聚类；计算簇均值，更新聚类中心 2、k值的选择，根据任务或者肘部法则（纵坐标损失函数，横坐标k值） 3、损失函数就是所有样例到聚类中心的距离之和，注意有多种距离度量方式 4、第一种类型无监督学习问题：聚类，K-Means是最常见的聚类算法

持续更新ing…

附录资料：

1、批量归一化（Batch Normalization） 2、反向传播公式详细推导（注意，博客中的参数 $\sigma$ 表示激活函数） 3、查准率、召回率 4、PCA主成分 5、推荐系统

最新回复(0)