学习脉络:
什么是学习?可以学习么?能够学习么?能够更好的学习么?家庭作业?运用一个实例进行解释:观众是如何对电影进行打分的?
10%improvement = 100万美元 为什么使用机器学习:
电影评价相关的模式没有机器学习,我们无法精确的用数学描述出来有大量的数据 机器学习的关键:一个学习模式没有确定的数学形式数据 评价的人有他的`喜好`:比如喜欢动作片?喜欢喜剧片?喜欢里面的演员等等。 而在电影`属性`,看其是否有喜剧元素,动作元素,是否是大片等等? 综合`匹配程度`来对影片进行评价。这还`不`是机器学习,你需要去采访观众,还需要自己去观看电影总结分析,而后进行匹配分析,而机器学习是`自动`完成以上的机器学习是以上过程的反过程,观众和电影都是独立随机抽样的样本,从中渐渐学习到模式
信贷评估也是一样的:
Formalization:
input: X (申请人信息-矢量)output:y (优质或劣质客户)Target Function: f : x → y f: x\rightarrow{y} f:x→yData:历史记录 ( X i , y i ) , i = 1 , 2 , . . . (X_i,y_i),i=1,2,... (Xi,yi),i=1,2,...Hypothesis: g : X → y g:X\rightarrow{y} g:X→y 其出自于假设集为什么使用假设集:(1)它没有坏处,假设集意味着更多的参考选择,意味着避免遗漏(2)它使许多问题更加明显
f是未知的,g是已知的,使g与F相似,G值 近似于 F值
字母大写表明相应函数关系的输出
h 是 H 的 一 个 子 集 , 而 g 是 其 中 的 一 个 h h是H的一个子集,而g是其中的一个h h是H的一个子集,而g是其中的一个h
把他们放在一起就是一个学习模型:
输入: X = ( x 1 , x 2 , . . . , x d ) X = (x_1,x_2,...,x_d) X=(x1,x2,...,xd) 授权条件: ∑ i d w i x i > 阈 值 \sum_i^dw_ix_i > 阈值 ∑idwixi>阈值 “w的大小控制相应属性的重要程度” 线性函数h可以写作: h ( x ) = s i g n ( ( ∑ i d w i x i ) − t h r e s h o l d ) h(x)=sign((\sum_i^dw_ix_i)-threshold) h(x)=sign((∑idwixi)−threshold) 正负代表授权与否
左图的紫线就是一个随机权值的划分线,右图是经过学习过后纠正的划分线
h ( x ) = s i g n ( ( ∑ i d w i x i ) + w 0 ) h(x)=sign((\sum_i^dw_ix_i)+w_0) h(x)=sign((∑idwixi)+w0) “可以把threshold换为 w 0 w_0 w0” 但还需要做一些变换: W = ( ′ w 0 ′ , w 1 , w 2 , . . . , w d ) W=('w_0',w_1,w_2,...,w_d) W=(′w0′,w1,w2,...,wd) “W向量中加入了一个 w 0 w_0 w0” 相应的, X = ( 1 , x 1 , x 2 , . . . , x d ) X=(1,x_1,x_2,...,x_d) X=(1,x1,x2,...,xd) “在W插入的相应位置插入一个1” 这样就是上述的结果了。
进而向量化:
h ( x ) = s i g n ( W T X ) h(x)=sign(W^TX) h(x)=sign(WTX)
假设数据集是线性可分的,sign将他们映射到(-1,+1)之间
在初始化假设函数之后,会出现许多的错误分类(回归): s i g n ( W T X ) ≠ Y n sign(W^TX)\neq{Y_n} sign(WTX)̸=Yn
W和X的角度大于90°就是负的,反之就是正的
更新权重向量:
W ← W + y n X n W\leftarrow{W+y_nX_n} W←W+ynXn
如图所示,更新权重向量的原因主要在于 W + y n X n W+y_nX_n W+ynXn,若分类错误,比如y为1而 W T X W^TX WTX为负数(角度大于90°),结果就是 W , X W,X W,X的平行四边形的对角线,逐渐就会修正为正数(角度小于90°)。若y为-1过程也是类似的。其可行性还要随着学习的深入深入思考。
若出现了错误分类的点,就迭代的执行 W ← W + y n X n W\leftarrow{W+y_nX_n} W←W+ynXn,但就一次分类来看,其只考虑了错误的点,很有可能修正一个点而导致更多点分类错误。但是只要数据集是线性可分的,那么经过迭代(可能需要很多次)最终一定会划分好。
学习理论产生的前提 用已有数据去挖掘一个潜在过程(目标函数)。
监督学习:输入,正确的输出 非监督学习:输入,? 加强学习:输入,一些正确的输出,输出的分数
模式,不能用数学形式进行描述,数据 满足以上三个条件才应用机器学习。