机器学习(周志华)——学前基本概念总结

    xiaoxiao2023-11-19  157

    《机器学习》——第1、2章基本概念总结

    基本概念大前提:模型可以分为模型结构和模型参数1、机器学习的概念是什么?机器学习学的是什么?2、什么叫做泛化能力?我们可以通过哪些途径增强我们训练出的模型的泛化能力?3、假设空间与版本空间的区别与联系是什么?4、归纳偏好的概念以及它的作用是什么?5、什么是过拟合、欠拟合?如何避免这些情况?6、什么是交叉验证?什么时候要使用交叉验证?7、如何评价模型性能?常用的性能指标有哪些?8、偏差与方差是什么?过拟合,欠拟合,分别对应偏差与方差的什么情况?9、特征归一化是什么?为什么要归一化?特征标准化?10、什么是梯度下降算法?小批量随机梯度下降,随机梯度下降是什么?

    基本概念

    大前提:模型可以分为模型结构和模型参数

    《机器学习》这本书中很多时候讲到的是在一个确定的模型结构中,训练集的变化引起的模型变化是指的模型参数变化,如二次多项式是一个模型结构,训练集的变化会引起二次多项式的系数发生变化。

    1、机器学习的概念是什么?机器学习学的是什么?

    机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习研究的是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。个人理解:机器学习研究的对象是算法,而该算法可以利用数据产生模型,该模型可以对新来的数据做出预判。

    2、什么叫做泛化能力?我们可以通过哪些途径增强我们训练出的模型的泛化能力?

    该处的泛化能力是指的模型结构的泛化能力,即不同类型的模型的泛化能力

    泛化能力 “泛化”的意思是由具体的、个别的扩大为一般的。那么在机器学习中,学得的模型适用于新样本的能力,称之为“ 泛化”能力。即,一个泛化能力很强的模型,不仅在训练样本上工作的好,在新样本上也工作的很好。

    提升泛化能力 a. 样本数越多,最终得到的模型的泛化能力也越强; b. 样本分布性越好,得出来的模型的泛化能力也就越强

    3、假设空间与版本空间的区别与联系是什么?

    科学推理的两大基本手段: 归纳:从具体的事实归结出一般性规律; 演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况。 在机器学习中,从样例中学习,显然是一个归纳的过程。

    可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的结论判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。(假设空间的概念可以理解为:所有与结论有关的属性的所有取值情况组成的集合。)现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称之为“版本空间”。

    版本空间是假设空间的一个子集,版本空间的集合属于假设空间的集合。两者是被包含与包含关系。

    4、归纳偏好的概念以及它的作用是什么?

    在对新样本进行判断的时候,不同的假设/模型得到的结果很可能的不一致的,为了保证学得的模型的稳定性,选择哪个模型/假设成为了一个关键性问题。 概念:机器学习算法在学习过程中对某种类型假设(模型)的偏好,称之为“归纳偏好”,简称为“偏好”。 作用:学习算法本身的“偏好”在模型生成的过程中对于保证模型的稳定性具有极其重要的作用。

    5、什么是过拟合、欠拟合?如何避免这些情况?

    开始回答本问题之前先阐明几个关键性概念: 错误率:把分类错误的样本数(m)占样本总数(n)的比例 → E = m/n; 精 度:精度=1 - 错误率 = (n-m)/n; 误 差:学习器的预测输出与样本的真实输出之间的差异; 训练误差 or 经验误差:学习器在训练集上的误差; 泛化误差:学习器在新样本上的误差。 我们的训练学习器的目的在于得到泛化误差小的学习器即在新样本上表现很好的学习器,但是往往我们只能通过训练使得经验误差最小化。 : 过拟合:为了得到泛化误差小的学习器,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,才能在遇到新样本时做出正确的判别。但是,当学习器把训练样本学得“太好”的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称之为“过拟合”。 : 欠拟合:指的是对训练样本的一般性质尚未学好。 : 过拟合可以理解为:矫枉过正;欠拟合可以理解为:盲人摸象。 有多种因素可能导致过拟合,其中最常见的情况就是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了。 而欠拟合则通常是由于学习能力低下造成的。欠拟合尚有办法克服,但过拟合则非常麻烦。并且,过拟合是无法避免的,我们所能做的只是“缓解”,或者说减小其风险。

    注:后续如果写了如何处理过拟合、欠拟合等方法,将在此补充或者附链接

    6、什么是交叉验证?什么时候要使用交叉验证?

    交叉验证是对模型结构进行评估的方法之一,其余还有留出法、自助法等。 为了更好的理解该部分,概念模式开启: 训练集:顾名思义,就是用来训练模型的一个数据集。 测试集:测试模型(学习器)对新样本的判别能力。

    起因:在训练样本很有限的情况下,即一个包含M个样例的数据集 D = {(x1, y1), (x2, y2), …, (xn, yn)},既要训练又要测试,因此我们需要对数据集 D 进行适当的处理,从中产生训练集 S 和测试集 T 。通过对不同模型结构的测试,我们希望能得到泛化性能比较强的模型结构,在确定模型结构的前提下,再利用数据集对模型参数进行训练。

    交叉验证法:先将数据集 D 划分为 k 个大小相似的互斥子集,即子集的并集为 D , 子集的交集为空集,每个子集通过分层采样得到的,以保证数据的分布性一致。然后每次用 k-1 个子集的并集作为训练集,剩余的作测试集。从而可进行 k 次训练,返回的是 k 个测试结果的均值。 (k折), 在交叉验证法的概念中,还有一个 (p次),即用相同的划分方式对样本划分 p 次。一个交叉验证会进行 p*k 次试验。

    7、如何评价模型性能?常用的性能指标有哪些?

    对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有 衡量模型泛化能力的评价标准 ,称之为性能度量(performance measure)。

    性能度量反映的是任务的需求,对比不同模型的能力时,使用不同的性能度量往往会导致不同的评估结果。

    回归任务最常用的性能度量是“均方误差”: E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 . E(f;D) = \frac{1}{m}\sum_{i=1}^m (f(\bm x_{i})-y_{i})^2. E(f;D)=m1i=1m(f(xi)yi)2.

    更一般地,对于数据分布 D \mathcal{D} D 和概率密度函数 p ( x ) p(x) p(x) E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x   . E(f;\mathcal{D}) = \int_ {\bm x \sim \mathfrak{D}} (f(\bm x)-y)^2p(\bm x)dx\,. E(f;D)=xD(f(x)y)2p(x)dx. 分类任务中的性能度量: 错误率和精度(适用于二分类与多分类) 错 误 率 : E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) 2 精 度 : a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) 2 = 1 − E ( f ; D ) 错误率:E(f;D) = \frac{1}{m}\sum_{i=1}^m \mathbb{I} (f(\bm x_{i})\neq y_{i})^2 \\ 精度:acc(f;D) = \frac{1}{m}\sum_{i=1}^m \mathbb{I} (f(\bm x_{i})= y_{i})^2 = 1-E(f;D) E(f;D)=m1i=1mI(f(xi)̸=yi)2acc(f;D)=m1i=1mI(f(xi)=yi)2=1E(f;D) 其中 D D D为样例数据集, m m m为样例个数。 更一般地,对于数据分布 D \mathcal{D} D 和概率密度函数 p ( x ) p(x) p(x),错误率和精度可描述为: 错 误 率 : E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x 精 度 : a c c ( f ; D ) = ∫ x ∼ D I ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) 错误率:E(f;\mathcal{D}) = \int_ {\bm x \sim \mathcal{D}} \mathbb{I} (f(\bm x)\neq y)p(\bm x)dx \\ 精度:acc(f;\mathcal{D}) = \int_ {\bm x \sim \mathcal{D}} \mathbb{I} (f(\bm x) = y)p(\bm x)dx = 1-E(f;D) E(f;D)=xDI(f(x)̸=y)p(x)dxacc(f;D)=xDI(f(x)=y)p(x)dx=1E(f;D) 查准率(准确率)、查全率(召回率)与 F1 查准率(准确率)、查全率(召回率)比错误率和精度包含的信息量更大,如对西瓜进行判别,错误率衡量的是有多少比例的西瓜被误判,若我们关心的是“挑出的西瓜有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑出类了”,此时,错误率已不够用。 以二分类问题为例,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive, TP)、假正例(false positive, FP)、真反例(true negative, TN)、假反例(false negative, FN)四种情形。 T P + F P + T N + F N = 样 例 总 数 TP+FP+TN+FN =样例总数 TP+FP+TN+FN= 查 准 率 : P = T P T P + F P        ⇒     T P + F P = 所 有 预 测 正 例 查 全 率 : R = T P T P + F N        ⇒     T P + F N = 所 有 真 实 正 例 查准率 : P = \frac{TP}{TP+FP} \ \ \ \ \ \ \Rightarrow \ \ \ TP+FP = 所有预测正例 \\ 查全率: R = \frac{TP}{TP+FN} \ \ \ \ \ \ \Rightarrow \ \ \ TP+FN = 所有真实正例 :P=TP+FPTP         TP+FP=R=TP+FNTP         TP+FN= 查准率与查全率是一对矛盾的度量,一般来说,查准率高,查全率往往偏低,反之亦然。下图为P-R曲线与平衡点示意图。 F1度量是基于查准率与查全率的调和平均定义的: 1 F 1 = 1 2 ( 1 P + 1 R )        ⇒      F 1 = 2 P ∗ R P + R = 2 T P 样 例 总 数 + T P − T N \frac{1}{F1} = \frac{1}{2}(\frac{1}{P} + \frac{1}{R}) \ \ \ \ \ \ \Rightarrow \ \ \ \ F1 = \frac{2P*R}{P+R} = \frac{2TP}{样例总数+TP-TN} F11=21(P1+R1)          F1=P+R2PR=+TPTN2TP

    8、偏差与方差是什么?过拟合,欠拟合,分别对应偏差与方差的什么情况?

    偏差和方差是在同一模型结构,不同训练集训练出的不同模型参数计算而得。

    y D y_D yD x {\bm x} x在数据集中的标记, f ( ) f() f()为训练集 D D D上学得模型 f f f x \bm x x上的预测输出, f ˉ ( ) \bar f() fˉ()为学习算法的期望预测。

    期望预测: f ˉ ( x ) = E D [ f ( x ; D ) ] \bar f(\bm x)= \mathbb{E}_D[f(\bm{x};D)] fˉ(x)=ED[f(x;D)] 方差: v a r ( x ) = E D [ ( f ( x ; D ) − f ˉ ( x ) ) 2 ] var({\bm x})= \mathbb{E}_D[(f(\bm{x};D)-\bar f (\bm{x}))^2] var(x)=ED[(f(x;D)fˉ(x))2],预测值与期望预测的方差 噪声: ε 2 = E D [ ( y D − y ) 2 ] \varepsilon^2= \mathbb{E}_D[(y_D-y)^2] ε2=ED[(yDy)2] 偏差:: v a r ( x ) = ( f ˉ ( x ) − y ) 2 var({\bm x})= (\bar f(\bm{x})-y)^2 var(x)=(fˉ(x)y)2,期望预测与真实标记的差别 欠拟合时偏差大(主导),过拟合时方差大(主导)。

    9、特征归一化是什么?为什么要归一化?特征标准化?

    不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理(特征归一化),以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

    线性函数归一化(Min-Max Scaling):将原始数据进行线性的变换,并确保新的数据均映射到[0,1]区间内,实现对原始数据的等比缩放: X n r o m = X − X m i n X m a x − X m i n X_{nrom}=\frac{X-X_{min}}{X_{max}-X_{min}} Xnrom=XmaxXminXXmin 0均值标准化(Standardization):将原始数据均映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么标准化公式定义为: z = x − μ σ z=\frac{x-\mu}{\sigma} z=σxμ

    10、什么是梯度下降算法?小批量随机梯度下降,随机梯度下降是什么?

    梯度下降法(用到梯度信息的确定型最优化算法):梯度可以反映函数下降的陡峭程度,梯度下降算法沿着函数最陡峭(梯度最小)的方向往前走一定步长,反复此过程直至找到最优解。

    随机梯度下降(Stochastics Gradient Descent, SGD):每次迭代只计算一个样本的损失函数 (loss),再逐步遍历所有样本。特点:局部震荡,总体收敛。

    小批量随机梯度下降(mini-batch SGD):为了兼顾稳定下降和随机特性以及小计算量。每次迭代选取总体样本中的一小批样本计算损失函数,逐步遍历所有样本。

    最新回复(0)