机器学习笔记入门 (三)

    xiaoxiao2022-07-02  124

    线性模型

    有几个点需要了解:

    线性模型的形式: f(x) = w1x1 + w2x2 +…+ wm*xm + b 从这里我们可以了解前面几章介绍的模型,训练,预测等等知识的真实面目,上面这个函数或者公式,就是所谓的模型。西瓜问题的线性模型就形同: f好瓜(x)=a * x色泽 + b * x根蒂 + c * x敲声 + 1 其中a,b,c就是需要大量数据来训练的参数,实际做法就是,通过大量的西瓜数据带入到各个x中去,然后通过赋予a,b,c各种值来让**f好瓜(x)**的错误最低,这个做法就是训练,训练的结果就是会出现类似如下的模型: f好瓜(x)=0.2 * x色泽 + 0.5 * x根蒂 + 0.2 * x敲声 + 1 其中0.2和0.5就是通过训练得来的,错误率最低的参数,也就是最优的参数,接下来就是预测,实际做法就是再拿一些训练集以外的数据,形同(色泽=浅白,根蒂=蜷缩,敲声=浊响)分别带入到三个x中,就能计算出 f好瓜(x) 的值,整个过程就是这样。当然训练和预测一般是交替进行的,训练的参数表现好不代表预测也会表现得很好。 另外,也可以看出,根蒂比色泽对是不是好瓜的判断更重要,因为根蒂的参数0.5大于色泽0.2 。线性回归 通俗理解线性回归 线性回归的目的是在训练的过程中,判断给定的参数是否最好,误差最小。它的核心思想就是求得多个 模型预测的结果和真实结果之间的差距 之和,这个和越小,参数就越接近合适。对数几率回归 需要先了解,单调可微函数,对数。然后详细见这里。 对数几率回归实际上是针对分类学习的,即“好瓜”和“坏瓜”这类问题的。LDA(线性判别分析) 投影后类内方差最小,类间方差最大 降维:以西瓜为例子,色泽是一个维度,根蒂是一个维度,敲声是一个维度,这个在前面假设空间里提到过,而如果西瓜不止这些对好瓜坏瓜的因素而是有很多个,比如大小,图案等等,那么西瓜这个问题就有多个维度。针对上面的好瓜模型 f好瓜(x)=a * x色泽 + b * x根蒂 + c * x敲声 + 1 ,如果色泽对于好瓜坏瓜这个结果并没有影响,那么就把这一项去掉,但需注意,这里的去掉并非是人为的把它去掉,而是如LDA模型在训练的过程中会学习到色泽对于结果没有影响,因此会在算法内把它去掉。多分类学习 多分类学习的核心思想是将多个分类任务拆分为若干个二分类任务。拆分的策略类别不平衡问题
    最新回复(0)