【机器学习】知识点汇总

    xiaoxiao2022-12-05  45

    资源:

    1、《统计学习方法》代码实现 2、吴恩达机器学习课程笔记 3、七月在线人工智能面试题 4、Datawhale秋招机器学习算法工程师面经 5、AI算法工程师手册—华校专 6、机器学习十大算法系列—July专栏

    建议学习顺序:

    一、基础知识:

    建议阅读:《统计学习方法》第一章:统计学习方法概论 KeyWords:经验风险、结构风险、L1与L2正则化、交叉验证、精确率、召回率

    ps: 1、L1先验服从拉普拉斯分布,L2先验服从高斯分布 2、如何评价模型好坏?混淆矩阵、精准率、召回率、准确度、ROC曲线、AUC、基尼系数

    二、线性回归(Linear Regression)

    建议阅读:《吴恩达机器学习课程笔记》2 & 4 KeyWords:代价函数、批量梯度下降、及其公式推导、单变量到多变量、 特征缩放/标准化/归一化

    ps: 1、批量梯度下降:每一步,使用所有的训练样本 2、线性回归输出为具体的浮点数

    三、逻辑回归(Logistic Regression)

    建议阅读:《吴恩达机器学习课程笔记》6 KeyWords:代价函数、极大似然估计、sigmoid、梯度下降求导、多类别分类

    ps: 1、逻辑回归是在线性回归(输出范围负无穷到正无穷)的基础上添加了sigmoid函数(输出范围0-1) 2、逻辑回归输出为0-1之间的小数,表示输出变量=1的概率值 3、正样本y=1,负样本y=0 4、逻辑回归的代价函数是通过极大似然估计得到的 5、最大化似然函数等价于最小化log损失函数

    四、感知机(Perceptron)

    建议阅读:《统计学习方法》第2章 KeyWords:分离超平面、损失函数、误分类点到超平面的距离、随机梯度下降、最优化、对偶形式

    ps: 1、随机梯度下降:一次随机选取一个样本点进行参数更新 2、感知机解不唯一,也就是超平面不唯一 3、正样本y=1,负样本y=-1 4、感知机是在线性回归的基础上加了个sign符号函数,输出为-1 or +1

    五、支持向量机(SVM)

    建议阅读:《统计学习方法》第7章为主,SVM三层境界为辅 KeyWords:线性可分SVM、线性SVM、非线性SVM、核函数、函数间隔、几何间隔、间隔最大化、凸二次规划、支持向量、对偶算法、拉格朗日函数、极大极小问题、KKT条件、硬间隔、软间隔、松弛变量、合页损失函数(hinge)、线性核、多项式核函数、高斯核函数、序列最小最优化算法(SMO)

    ps: 1、《统计机器学习》是从感知机扩展到SVM,其从最大间隔这个点出发,《吴恩达机器学习课程笔记》是从逻辑回归的损失函数到SVM的损失函数(合页损失hinge),二者本质上是一样的,角度不同,个人倾向于前者。 2、SVM的输出(符号函数sign)为+1 or -1,二分类 3、正样本+1,负样本-1 4、简要思路

    六、k近邻法(kNN)

    建议阅读:《统计学习方法》第3章 KeyWords:特征空间划分、k值选择较大或较小、多数表决、kd树

    ps: 1、k值较小,模型复杂,过拟合,k值较大,模型简单,欠拟合,通常使用交叉验证原则k 2、多数表决对应于经验风险最小化(无正则) 3、kd树是二叉树,一种快速实现knn的算法 4、树,基本就对应着特征空间的划分

    七、决策树(decision tree)

    建议阅读:《统计学习方法》第5章 KeyWords:条件概率分布、特征空间划分、特征选择、信息增益、信息增益比、ID3、C4.5、基尼系数、分类与回归树(classification and regression tree, CART)、剪枝。

    ps: 1、决策树就是特征空间的划分,一个节点对应一个超矩形 2、特征选择准则:信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART) 3、ID3与C4.5只进行了最优特征选择,注意并不是二叉树,只是一般的树 4、CART是二叉树,进行了最优特征与最优切分点的选择 5、CART利用平方误差就是回归,利用基尼指数就是分类 6、剪枝就是损失函数考虑到了模型复杂度,可以简单理解为极小化加了正则之后的损失函数 7、CART应用非常广泛,经常作为boost方法的基本分类器,如XGBoost

    八、提升方法(AdaBoost)

    建议阅读:《统计学习方法》第8章为主,Adaboost算法的原理与推导为辅 KeyWords:Adaboost、GBDT、基本弱分类器、强分类器、加权多数表决、样本的权值改变、前向分布算法、加法模型、弱分类器的权值改变、具体算法流程、公式推导、代码实战

    请问(决策树、Random Forest、Boosting、Adaboot)GBDT和XGBoost的区别是什么?

    ps: 1、Adaboost改变训练样本的权重、弱分类器的权重 2、Adaboost是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法的二类分类方法 3、以决策树为基函数的提升方法是提升树,用梯度近似残差就是梯度提升树(GBDT) 4、注意,GBDT为回归问题,回归树,是boost,但不是Adaboost, 5、Adaboost是最后分类器相加 6、GBDT是每一颗树学的都是之前的数结果和残差,就是用残差代替真实数据供后续的树学习,具体看书中的例子 7、GBDT累加所有树的结果作为最终的结果(浮点数)参考1、参考2

    九、朴素贝叶斯法(naive Bayes)

    建议阅读:《统计学习方法》第4章 KeyWords:先验概率、后验概率、类条件概率,贝叶斯公式、后验概率最大化、朴素贝叶斯、贝叶斯估计

    ps: 1、朴素:条件独立性假设,特征在类确定的条件下都是条件独立的 2、参数估计用的极大似然估计 3、先验概率和类条件概率都是根据数据统计得到的 4、朴素贝叶斯估计可能存在概率值为0的情况,所以出现了贝叶斯估计,就是在概率计算的时候加上一个正数(拉普拉斯平滑),保证不出现概率为0的情况

    十、神经网络(Neural Networks)

    建议阅读:《吴恩达机器学习课程笔记》8 & 9 KeyWords:前向传播、误差反向传播、各种符号表示、多层、输出层、多类

    ps: 1、神经网络的基础是逻辑回归,注意多类分类 2、神经网络的输出目标是k维向量[1 0 0 0],但是实际输出应该是浮点数[0.9 0.2 0.1 0.1]向量,表示概率 3、误差反向传播公式推导,见附录资料

    十一、K-Means聚类

    建议阅读:《吴恩达机器学习课程笔记》13 KeyWords:无监督、聚类中心、簇、肘部法则

    ps: 1、随机初始化,选择聚类中心;然后计算样例到中心的距离,聚类;计算簇均值,更新聚类中心 2、k值的选择,根据任务或者肘部法则(纵坐标损失函数,横坐标k值) 3、损失函数就是所有样例到聚类中心的距离之和,注意有多种距离度量方式 4、第一种类型无监督学习问题:聚类,K-Means是最常见的聚类算法

    持续更新ing…

    附录资料:

    1、批量归一化(Batch Normalization) 2、反向传播公式详细推导(注意,博客中的参数 σ \sigma σ表示激活函数) 3、查准率、召回率 4、PCA主成分 5、推荐系统

    最新回复(0)