一、些基本定义
线性性:所谓的线性性就是加分和数乘。距离:距离的定义必须满足如下三个条件:
非负性:
d
(
x
,
y
)
≥
0
,
x
=
y
d(x,y)≥0,x=y
d(x,y)≥0,x=y时等号成立。对称性:
d
(
x
,
y
)
=
d
(
y
,
x
)
d(x,y)=d(y,x)
d(x,y)=d(y,x)三角不等式:
d
(
x
,
y
)
+
d
(
y
,
z
)
≥
d
(
x
,
z
)
d(x,y)+d(y,z)≥d(x,z)
d(x,y)+d(y,z)≥d(x,z) 范数:
‖
x
‖
‖x‖
‖x‖满足三个条件为范数:
非负性:
‖
x
‖
≥
0
‖x‖≥0
‖x‖≥0线性性:
‖
a
x
‖
=
∣
a
∣
‖
x
‖
‖ax‖=|a|‖x‖
‖ax‖=∣a∣‖x‖三角不等式:
‖
x
‖
+
‖
y
‖
≥
‖
x
+
y
‖
‖x‖+‖y‖≥‖x+y‖
‖x‖+‖y‖≥‖x+y‖范数可以看成从
x
x
x到原点的距离;所以由范数可以定义距离,即:
d
(
x
,
y
)
=
∣
∣
x
−
y
∣
∣
d(x,y)=||x-y||
d(x,y)=∣∣x−y∣∣,但是距离不可以定义范数因为距离的定义,不满足范数的第二条条件。 内积:
⟨
x
,
y
⟩
⟨x,y⟩
⟨x,y⟩为内积的条件:
对称性:
⟨
x
,
y
⟩
=
⟨
y
,
x
⟩
⟨x,y⟩=⟨y,x⟩
⟨x,y⟩=⟨y,x⟩线性性质:
⟨
x
,
y
⟩
+
⟨
x
,
z
⟩
=
⟨
x
,
y
+
z
⟩
⟨x,y⟩+⟨x,z⟩=⟨x,y+z⟩
⟨x,y⟩+⟨x,z⟩=⟨x,y+z⟩ ,
⟨
a
x
,
y
⟩
=
a
⟨
x
,
y
⟩
⟨ax,y⟩=a⟨x,y⟩
⟨ax,y⟩=a⟨x,y⟩正定性:
⟨
x
,
y
⟩
≥
0
⟨x,y⟩≥0
⟨x,y⟩≥0
二、各种空间
1、各种空间关系图
2、线性空间
若某个空间中的任意向量线性组合(加法和数乘)形成的新向量仍然属于该空间,则该空间就是线性空间。线性空间中可以找到一组基,它能够通过线性组合得到空间中所有的向量(点)。
3、函数空间
一个函数可以看成一个无穷维的向量。对函数
f
(
x
)
f(x)
f(x)按照自变量
x
x
x进行采样,将样本的函数值组成一个向量:
(
f
(
x
1
)
,
f
(
x
2
)
,
…
f
(
x
n
)
)
(f(x_1 ),f(x_2 ),…f(x_n ))
(f(x1),f(x2),…f(xn))如果采样的间隔变得无穷的小,则这个向量就为一个无穷维的向量。
所以一个函数空间的内积可以定义为:
⟨
f
,
g
⟩
=
∫
f
(
x
)
,
g
(
x
)
d
x
⟨f,g⟩=∫f(x),g(x) dx
⟨f,g⟩=∫f(x),g(x)dx多元函数:用
x
x
x表示
R
n
R^n
Rn中的一个向量(点),
f
f
f代表函数本身,也就是无穷向量。
f
(
x
)
f(x)
f(x)表示点
x
x
x处的函数值与向量基类似,我们可以使用函数基表示其他函数。与向量基不同的是,在向量空间中我们只需要有限个向量去构造一组向量基,函数空间中则需要无限个基函数。
4、完备性
其中完备性的意思就是空间中的极限运算不能跑出该空间,如有理数空间中的
2
\sqrt{2}
2
的小数表示,其极限随着小数位数的增加收敛到
2
\sqrt{2}
2
,但
2
\sqrt{2}
2
属于无理数,并不在有理数空间,故不满足完备性。一个通俗的理解是把学校理解为一个空间,你从学校内的宿舍中开始一直往外走,当走不动停下来时(极限收敛),发现已经走出学校了(超出空间),不在学校范围内了(不完备了)。希尔伯特就相当于地球,无论你怎么走,都还在地球内(飞出太空除外)一般指函数空间
5、特征值分解
特征值:
定义:设
A
A
A是
n
n
n阶矩阵,λ是一个实数,若存在
n
n
n维非零向量
ξ
≠
0
ξ≠0
ξ̸=0,使得下式成立:
A
ξ
=
λ
ξ
Aξ=λξ
Aξ=λξ则称
λ
λ
λ是
A
A
A的一个特征值,
ξ
ξ
ξ是
A
A
A的对应于特征值
λ
λ
λ的特征向量。性质:
不同特征值的特征向量线性无关。
同一特征值的特征向量的线性组合依然是该特征值的特征向量。不同特征值的特征向量的线性组合依然不再是矩阵A的特征向量。
K
K
K重特征值
λ
λ
λ至多有
k
k
k个线性无关的特征向量。
一般矩阵的特征值分解:
若
A
A
A是
n
n
n阶矩阵,并且具有
n
n
n个线性无关的特征向量:
ξ
1
,
ξ
2
,
…
,
ξ
n
ξ_1,ξ_2,…,ξ_n
ξ1,ξ2,…,ξn这些特征向量对应的特征值分别是:
λ
1
,
λ
2
,
…
,
λ
n
λ_1,λ_2,…,λ_n
λ1,λ2,…,λn特征值可能有重根。则有下面式子成立:
A
ξ
i
=
λ
i
ξ
i
Aξ_i=λ_i ξ_i
Aξi=λiξi
[
A
ξ
1
,
A
ξ
2
,
…
,
A
ξ
n
]
=
[
λ
1
ξ
1
,
λ
2
ξ
2
,
…
,
λ
n
ξ
n
]
[Aξ_1,Aξ_2,…,Aξ_n ]=[λ_1 ξ_1,λ_2 ξ_2,…,λ_n ξ_n]
[Aξ1,Aξ2,…,Aξn]=[λ1ξ1,λ2ξ2,…,λnξn]
A
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
[
λ
1
0
⋯
0
0
λ
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
λ
n
]
A[ξ_1,ξ_2,…,ξ_n ]=[ξ_1,ξ_2,…,ξ_n ]\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}
A[ξ1,ξ2,…,ξn]=[ξ1,ξ2,…,ξn]⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤记:
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
Q
[ξ_1,ξ_2,…,ξ_n ]=Q
[ξ1,ξ2,…,ξn]=Q
P
=
[
λ
1
0
⋯
0
0
λ
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
λ
n
]
P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}
P=⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤则有:
A
=
Q
P
Q
−
1
A=QPQ^{-1}
A=QPQ−1 实对称矩阵性质::
实对称矩阵
A
A
A的不同特征值对应的特征向量是正交的实对称矩阵
A
A
A的特征值都是实数,特征向量都是实向量。
n
n
n阶实对称矩阵
A
A
A必可相似对角化(有
n
n
n个线性无关的特征向量),且相似对角阵上的元素即为矩阵本身特征值。若
λ
λ
λ是
k
k
k重特征值,则必有k个线性无关的特征向量。
如果矩阵
A
A
A是实对称矩阵,则必定存在一个正交矩阵
Q
Q
Q,使得
Q
T
A
Q
=
P
Q^T AQ=P
QTAQ=P,即
A
=
Q
P
Q
T
A=Q PQ^T
A=QPQT其中
P
P
P是对角矩阵 正交矩阵性质::
Q
Q
Q正交矩阵,则
Q
T
=
Q
−
1
Q^T=Q^{-1}
QT=Q−1 施密特正交化::
设
α
1
,
α
2
,
…
,
α
n
α_1,α_2,…,α_n
α1,α2,…,αn是
R
n
R^n
Rn中的一个线性无关向量组,若令:
β
1
=
α
1
β_1=α_1
β1=α1
β
2
=
α
2
−
⟨
α
2
,
β
1
⟩
⟨
α
1
,
β
1
⟩
β
1
β_2=α_2-\frac{⟨α_2,β_1 ⟩}{⟨α_1,β_1 ⟩}β_1
β2=α2−⟨α1,β1⟩⟨α2,β1⟩β1
…
…
…
β
n
=
α
n
−
⟨
α
n
,
β
1
⟩
⟨
α
1
,
β
1
⟩
β
1
−
⟨
α
n
,
β
2
⟩
⟨
α
2
,
β
2
⟩
β
2
−
…
−
⟨
α
n
,
β
n
−
1
⟩
⟨
α
n
−
1
,
β
n
−
1
⟩
β
n
−
1
β_n=α_n-\frac{⟨α_n,β_1 ⟩}{⟨α_1,β_1 ⟩} β_1-\frac{⟨α_n,β_2 ⟩}{⟨α_2,β_2 ⟩} β_2-…-\frac{⟨α_n,β_{n-1} ⟩}{⟨α_{n-1},β_{n-1} ⟩} β_{n-1}
βn=αn−⟨α1,β1⟩⟨αn,β1⟩β1−⟨α2,β2⟩⟨αn,β2⟩β2−…−⟨αn−1,βn−1⟩⟨αn,βn−1⟩βn−1则
β
1
,
β
2
,
…
,
β
n
β_1,β_2,…,β_n
β1,β2,…,βn就是一个正交向量组。再进行单位化:
e
i
=
β
i
∣
∣
β
i
∣
∣
e_i=\frac{β_i}{||β_i ||}
ei=∣∣βi∣∣βi利用线性无关向量组,构造出一个标准正交向量组的方法,就是施密特正交化方法。
由上面公式我们可以看出,
β
1
,
β
2
,
…
,
β
n
β_1,β_2,…,β_n
β1,β2,…,βn都是由
α
1
,
α
2
,
…
,
α
n
α_1,α_2,…,α_n
α1,α2,…,αn线性组合形成的。 证明:如果矩阵A是实对称矩阵,则必定存在一个正交矩阵
Q
Q
Q,即
A
=
Q
P
Q
T
A=QPQ^T
A=QPQT
这个就是实对称矩阵的特征值分解,上面所有的铺垫都是为了轻松的证明这个定理。假设
A
A
A是
n
n
n阶实对称矩阵,其不重复特征值为:
λ
1
,
λ
2
,
…
,
λ
d
λ_1,λ_2,…,λ_d
λ1,λ2,…,λd若
d
=
n
d=n
d=n,则
A
A
A有
n
n
n个不相等的特征值,所有每个特征值都有一个特征向量为:
ξ
1
,
ξ
2
,
…
,
ξ
n
ξ_1,ξ_2,…,ξ_n
ξ1,ξ2,…,ξn,则他们相互正交。然后由上面的特征值分解方法有:
A
=
Q
P
Q
−
1
A=QPQ^{-1}
A=QPQ−1由于
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
Q
[ξ_1,ξ_2,…,ξ_n ]=Q
[ξ1,ξ2,…,ξn]=Q,所以
Q
Q
Q为正交矩阵,则
Q
T
=
Q
−
1
Q^T=Q^{-1}
QT=Q−1,所以有:
A
=
Q
P
Q
T
A=QPQ^T
A=QPQT若
d
<
n
d<n
d<n,则
A
A
A有重根特征值,对每个重根特征值做下面处理: - 若λ_i 是k重特征值,则必有
k
k
k个线性无关的特征向量:
ξ
i
1
,
ξ
i
2
,
…
,
ξ
i
k
ξ_{i1},ξ_{i2},…,ξ_{ik}
ξi1,ξi2,…,ξik,将他们进行施密特正交化得到:
ξ
i
1
′
,
ξ
i
2
′
,
…
,
ξ
i
k
′
ξ_{i1}',ξ_{i2}',…,ξ_{ik}'
ξi1′,ξi2′,…,ξik′,由于
ξ
i
1
′
,
ξ
i
2
′
,
…
,
ξ
i
k
′
ξ_{i1}',ξ_{i2}',…,ξ_{ik}'
ξi1′,ξi2′,…,ξik′是由
ξ
i
1
,
ξ
i
2
,
…
,
ξ
i
k
ξ_{i1},ξ_{i2},…,ξ_{ik}
ξi1,ξi2,…,ξik线性组合形成的,根据特征值性质可知
ξ
i
1
′
,
ξ
i
2
′
,
…
,
ξ
i
k
′
ξ_{i1}',ξ_{i2}',…,ξ_{ik}'
ξi1′,ξi2′,…,ξik′也是
λ
i
λ_i
λi的特征向量并且相互正交。
经过上面处理,
ξ
1
,
ξ
2
,
…
,
ξ
n
ξ_1,ξ_2,…,ξ_n
ξ1,ξ2,…,ξn相互正交,后面的处理和上一种情况一样。
现在经过上面的一系列铺垫证明,我们得到这样一个结论:
若
A
A
A是
n
n
n阶是对称矩阵,那么A可以被如下分解:
A
=
Q
P
Q
T
A=QPQ^T
A=QPQT其中:
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
Q
[ξ_1,ξ_2,…,ξ_n ]=Q
[ξ1,ξ2,…,ξn]=Q
P
=
[
λ
1
0
⋯
0
0
λ
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
λ
n
]
P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}
P=⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤中间特征值于特征向量是对应关系,我展开公式:
A
=
Q
P
Q
T
=
∑
i
=
1
n
λ
i
ξ
i
ξ
i
T
A=QPQ^T=∑_{i=1}^nλ_i ξ_i ξ_i^T
A=QPQT=i=1∑nλiξiξiT 为了顺利理解下面的部分,我们需要知道矩阵与线性变换的一个关系:
每个矩阵与一个线性变换对应,所以矩阵可以看作是一个映射或一个函数。详细讲述可以参考:https://blog.csdn.net/ACM_hades/article/details/90518653
三、核函数
函数
φ
(
x
)
φ(x)
φ(x)可视为一个无穷维向量,那么二元函数
K
(
x
,
y
)
K(x,y)
K(x,y)就可以可以视为一个无穷维矩阵,这个地方有点抽象,解释如下:
假设
A
A
A为
m
×
n
m×n
m×n的矩阵,
x
x
x为
n
×
1
n×1
n×1的列向量,则可以通过对
A
A
A与
x
x
x做内积将
x
x
x映射为一个
m
m
m维空间中的
y
y
y(
m
×
1
m×1
m×1的列向量),所以矩阵
A
A
A就是一个函数:
A
x
=
y
Ax=y
Ax=y现在我对函数
f
(
x
)
f(x)
f(x)与
K
(
x
,
y
)
K(x,y)
K(x,y)做内积:
⟨
K
(
x
,
y
)
,
φ
(
x
)
⟩
=
∫
K
(
x
,
y
)
φ
(
x
)
d
x
⟨K(x,y),φ(x)⟩=∫K(x,y)φ(x)dx
⟨K(x,y),φ(x)⟩=∫K(x,y)φ(x)dx这个积分的结果是一个
y
y
y的函数
μ
(
y
)
μ(y)
μ(y),也是无限维的向量。所以从这个角度讲
K
(
x
,
y
)
K(x,y)
K(x,y)就是函数空间中的矩阵。 假设二元函数
K
(
x
,
y
)
K(x,y)
K(x,y)满足下面条件,就是核函数(或者叫核矩阵)
对称性(对称矩阵):
K
(
x
,
y
)
=
K
(
y
,
x
)
K(x,y)=K(y,x)
K(x,y)=K(y,x)正定性:
∬
f
(
x
)
K
(
x
,
y
)
f
(
y
)
d
x
d
y
∬f(x)K(x,y)f(y)dxdy
∬f(x)K(x,y)f(y)dxdy满足上述条件我们称为对称半正定核函数。 特征值
λ
λ
λ与特征函数
ψ
(
x
)
ψ(x)
ψ(x):与上面一致
⟨
K
(
x
,
y
)
,
ψ
(
x
)
⟩
=
∫
K
(
x
,
y
)
ψ
(
x
)
d
x
=
λ
ψ
(
y
)
⟨K(x,y),ψ(x)⟩=∫K(x,y)ψ(x) dx=λψ(y)
⟨K(x,y),ψ(x)⟩=∫K(x,y)ψ(x)dx=λψ(y)这样我可以将核函数像是实对称矩阵那样进行特征分解,所以得到下面公式:
假设无穷多个特征值为:
{
λ
i
}
i
=
1
∞
\{λ_i \}_{i=1}^∞
{λi}i=1∞,对应的无穷多个正交的特征函数为:
{
ψ
(
x
)
i
}
i
=
1
∞
\{ψ(x)_i \}_{i=1}^∞
{ψ(x)i}i=1∞所以有:
K
(
x
,
y
)
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
ψ
(
y
)
i
T
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
ψ
(
y
)
i
K(x,y)=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i^T=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i
K(x,y)=i=1∑∞λiψ(x)iψ(y)iT=i=1∑∞λiψ(x)iψ(y)i
{
ψ
(
x
)
i
}
i
=
1
∞
\{ψ(x)_i \}_{i=1}^∞
{ψ(x)i}i=1∞也是当前函数空间的一组标准正交组基。即满足:
〈
ψ
(
x
)
i
,
ψ
(
x
)
j
〉
=
∫
ψ
(
x
)
i
ψ
(
x
)
j
d
x
=
0
〈ψ(x)_i,ψ(x)_j 〉=∫ψ(x)_i ψ(x)_j dx=0
〈ψ(x)i,ψ(x)j〉=∫ψ(x)iψ(x)jdx=0
〈
ψ
(
x
)
i
,
ψ
(
x
)
i
〉
=
∫
ψ
(
x
)
i
ψ
(
x
)
i
d
x
=
1
〈ψ(x)_i,ψ(x)_i 〉=∫ψ(x)_i ψ(x)_i dx=1
〈ψ(x)i,ψ(x)i〉=∫ψ(x)iψ(x)idx=1
四、再生核希尔伯特空间
{
ψ
(
x
)
i
}
i
=
1
∞
\{ψ(x)_i \}_{i=1}^∞
{ψ(x)i}i=1∞也是原函数空间(希尔伯特空间)的一组标准正交组基,现在我们将
{
λ
i
ψ
(
x
)
i
}
i
=
1
∞
\{\sqrt{λ_i }ψ(x)_i \}_{i=1}^∞
{λi
ψ(x)i}i=1∞做为一组正交基,形成新的函数空间叫做RKHS空间(再生核希尔伯特空间),记为
H
H
H空间
H
H
H空间中的任一向量或函数可以表示为基的线性组合:
f
=
∑
(
i
=
1
)
∞
f
i
λ
i
ψ
(
x
)
i
,
f=∑_(i=1)^∞ f_i \sqrt{λ_i }ψ(x)_i,
f=∑(i=1)∞fiλi
ψ(x)i,则函数可以用坐标(系数)表示:
f
=
[
f
1
,
f
2
,
…
]
T
,
g
=
[
g
1
,
g
2
,
…
]
T
f=[f_1,f_2,…]^T, g=[g_1,g_2,…]^T
f=[f1,f2,…]T,g=[g1,g2,…]T,这样内积可以表示为:
⟨
f
,
g
⟩
=
∫
∑
i
=
1
∞
f
i
λ
i
ψ
(
x
)
i
∑
i
=
1
∞
g
i
λ
i
ψ
(
x
)
i
d
x
=
∫
∑
i
=
1
∞
f
i
g
i
ψ
(
x
)
i
ψ
(
x
)
i
d
x
⟨f,g⟩=∫∑_{i=1}^∞f_i \sqrt{λ_i } ψ(x)_i ∑_{i=1}^∞g_i \sqrt{λ_i }ψ(x)_i dx=∫∑_{i=1}^∞f_i g_i ψ(x)_i ψ(x)_i dx
⟨f,g⟩=∫i=1∑∞fiλi
ψ(x)ii=1∑∞giλi
ψ(x)idx=∫i=1∑∞figiψ(x)iψ(x)idx
=
∑
i
=
1
∞
f
i
g
i
∫
ψ
(
x
)
i
ψ
(
x
)
i
d
x
=
∑
i
=
1
∞
f
i
g
i
=∑_{i=1}^∞f_i g_i ∫ψ(x)_i ψ(x)_i dx=∑_{i=1}^∞f_i g_i
=i=1∑∞figi∫ψ(x)iψ(x)idx=i=1∑∞figi在
H
H
H空间的这组基下,这样我们可以改写核函数:
K
(
x
,
y
)
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
λ
i
ψ
(
y
)
i
K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i }ψ(y)_i
K(x,y)=i=1∑∞λi
ψ(x)iλi
ψ(y)i我们对核函数中的
y
y
y每取一个特定值,都会得到一个
x
x
x的函数,那么我们可以将核函数看作是向量
y
y
y到
x
x
x函数的一个函数,记作:
G
(
y
)
=
K
(
x
,
y
)
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
λ
i
ψ
(
y
)
i
G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y)_i
G(y)=K(x,y)=i=1∑∞λi
ψ(x)iλi
ψ(y)i函数
G
(
y
)
G(y)
G(y)的定义域是欧几里得空间,值域为函数空间。那么
G
(
y
)
G(y)
G(y)在
H
H
H空间的坐标表示:
G
(
y
)
=
[
λ
i
ψ
(
y
)
1
,
λ
i
ψ
(
y
)
2
,
…
…
]
G(y)=[\sqrt{λ_i }ψ(y)_1,\sqrt{λ_i } ψ(y)_2,……]
G(y)=[λi
ψ(y)1,λi
ψ(y)2,……]则
y
y
y每取一个具体值,都会是一个函数,并且可以得到这个函数在
H
H
H空间的坐标表示,例如
y
=
y
0
y=y_0
y=y0:
G
(
y
0
)
=
[
λ
i
ψ
(
y
0
)
1
,
λ
i
ψ
(
y
0
)
2
,
…
…
]
G(y_0 )=[\sqrt{λ_i } ψ(y_0 )_1,\sqrt{λ_i }ψ(y_0 )_2,……]
G(y0)=[λi
ψ(y0)1,λi
ψ(y0)2,……]表示的函数为:
G
(
y
0
)
=
K
(
x
,
y
0
)
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
λ
i
ψ
(
y
0
)
i
G(y_0 )=K(x,y_0 )=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y_0 )_i
G(y0)=K(x,y0)=i=1∑∞λi
ψ(x)iλi
ψ(y0)i那么两个函数:
G
(
y
0
)
,
G
(
y
1
)
G(y_0 ),G(y_1)
G(y0),G(y1)的内积为:
〈
G
(
y
0
)
,
G
(
y
1
)
〉
=
∑
i
=
1
∞
λ
i
ψ
(
y
0
)
i
λ
i
ψ
(
y
1
)
i
=
K
(
y
0
,
y
1
)
〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 )
〈G(y0),G(y1)〉=i=1∑∞λi
ψ(y0)iλi
ψ(y1)i=K(y0,y1)这就是核的可再生性,即用核函数再生两个核函数的內积。函数空间
H
H
H被称为再生核希尔伯特空间(RKHS)。这个性质是非常好的,因为原本函数之间计算内积需要算无穷维的积分,但是现在只需要算核函数就好了。
五、核技术:
上面我们说过如果我们对
y
y
y进行特定值,核函数
K
(
x
,
y
)
K(x,y)
K(x,y)就变成了一个x的函数,这样我们可以对
y
y
y进行任意取值得到一个
x
x
x的函数:
G
(
y
)
=
K
(
x
,
y
)
=
∑
i
=
1
∞
λ
i
ψ
(
x
)
i
λ
i
ψ
(
y
)
i
G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i }ψ(x)_i \sqrt{λ_i } ψ(y)_i
G(y)=K(x,y)=i=1∑∞λi
ψ(x)iλi
ψ(y)i
G
(
y
)
G(y)
G(y)的定义域是欧几里得空间,值域是一个函数空间。就是一个欧几里得空间到函数空间(希尔伯特空间)的映射(函数).并且
G
(
y
)
G(y)
G(y)值域空间中的任意两个函数
(
G
(
y
0
)
,
G
(
y
1
)
)
(G(y_0 ),G(y_1))
(G(y0),G(y1))的内积都可以通过核函数直接算出
(
K
(
y
0
,
y
1
)
)
(K(y_0,y_1 ))
(K(y0,y1))需要进行无穷积分。
这样,我们无需知道这个映射
G
(
y
)
G(y)
G(y)及其值域空间
H
H
H的具体形式,只需要一个对称半正定的核函数,就必然存在映射
G
(
y
)
G(y)
G(y)和其值域空间
H
H
H,使得:
〈
G
(
y
0
)
,
G
(
y
1
)
〉
=
∑
i
=
1
∞
λ
i
ψ
(
y
0
)
i
λ
i
ψ
(
y
1
)
i
=
K
(
y
0
,
y
1
)
〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 )
〈G(y0),G(y1)〉=i=1∑∞λi
ψ(y0)iλi
ψ(y1)i=K(y0,y1)这就是Kernel trick。
SVM的核技术:
我们的原始数据
x
x
x是欧几里得空间的一个向量,当我们的原始数据线性不可分时,我们就希望有一个映射
G
(
x
)
G(x)
G(x),它能把原始数据
x
x
x映射到一个无穷维的函数空间(希尔伯特空间)中去,使的数据在这个无穷维的空间中变得线性可分。并且在svm的优化中,我们只需要两个样本的内积
〈
x
1
,
x
2
〉
〈x_1,x_2 〉
〈x1,x2〉,那么经过映射
G
(
x
)
G(x)
G(x)后我们也只需要任意两个样本映射后的内积
〈
G
(
x
0
)
,
G
(
x
1
)
〉
〈G(x_0 ),G(x_1 )〉
〈G(x0),G(x1)〉,并不需要这个映射
G
(
y
)
G(y)
G(y)及其值域空间的具体形式。这样问题就变成了我们只要一个对称半正定的核函数就ok了。
参考链接:
http://songcy.net/posts/story-of-basis-and-kernel-part-1/http://songcy.net/posts/story-of-basis-and-kernel-part-2/