SVM的核技术与希尔伯特空间

xiaoxiao2023-10-15 162

一、些基本定义

线性性：所谓的线性性就是加分和数乘。距离：距离的定义必须满足如下三个条件：非负性：

d (x, y) \geq 0, x = y

时等号成立。对称性：

d (x, y) = d (y, x)

三角不等式：

d (x, y) + d (y, z) \geq d (x, z)

范数：

‖ x ‖

满足三个条件为范数：非负性：

‖ x ‖ \geq 0

线性性：

‖ a x ‖ = ∣ a ∣ ‖ x ‖

三角不等式：

‖ x ‖ + ‖ y ‖ \geq ‖ x + y ‖

范数可以看成从

x

到原点的距离；所以由范数可以定义距离,即：

d (x, y) = ∣ ∣ x - y ∣ ∣

，但是距离不可以定义范数因为距离的定义，不满足范数的第二条条件。内积：

⟨ x, y ⟩

为内积的条件：对称性：

⟨ x, y ⟩ = ⟨ y, x ⟩

线性性质：

⟨ x, y ⟩ + ⟨ x, z ⟩ = ⟨ x, y + z ⟩

⟨ a x, y ⟩ = a ⟨ x, y ⟩

正定性：

⟨ x, y ⟩ \geq 0

二、各种空间

1、各种空间关系图

2、线性空间

若某个空间中的任意向量线性组合(加法和数乘)形成的新向量仍然属于该空间，则该空间就是线性空间。线性空间中可以找到一组基，它能够通过线性组合得到空间中所有的向量(点)。

3、函数空间

一个函数可以看成一个无穷维的向量。对函数

f (x)

按照自变量

x

进行采样，将样本的函数值组成一个向量：

f(x_1 ),f(x_2 ),…f(x_n ))

如果采样的间隔变得无穷的小，则这个向量就为一个无穷维的向量。所以一个函数空间的内积可以定义为：

⟨ f, g ⟩ = \int f (x), g (x) d x

多元函数：用

x

表示

R^n

中的一个向量(点)，

f

代表函数本身，也就是无穷向量。

f (x)

表示点

x

处的函数值与向量基类似，我们可以使用函数基表示其他函数。与向量基不同的是，在向量空间中我们只需要有限个向量去构造一组向量基，函数空间中则需要无限个基函数。

4、完备性

其中完备性的意思就是空间中的极限运算不能跑出该空间，如有理数空间中的

\sqrt{2}

的小数表示，其极限随着小数位数的增加收敛到

\sqrt{2}

，但

\sqrt{2}

属于无理数，并不在有理数空间，故不满足完备性。一个通俗的理解是把学校理解为一个空间，你从学校内的宿舍中开始一直往外走，当走不动停下来时（极限收敛），发现已经走出学校了（超出空间），不在学校范围内了（不完备了）。希尔伯特就相当于地球，无论你怎么走，都还在地球内（飞出太空除外）一般指函数空间

5、特征值分解

特征值：

定义：设

A

是

n

阶矩阵，λ是一个实数，若存在

n

维非零向量

ξ ̸ = 0

，使得下式成立：

A ξ = λ ξ

则称

λ

是

A

的一个特征值，

ξ

是

A

的对应于特征值

λ

的特征向量。性质：不同特征值的特征向量线性无关。同一特征值的特征向量的线性组合依然是该特征值的特征向量。不同特征值的特征向量的线性组合依然不再是矩阵A的特征向量。

K

重特征值

λ

至多有

k

个线性无关的特征向量。

一般矩阵的特征值分解：

若

A

是

n

阶矩阵，并且具有

n

个线性无关的特征向量：

ξ_1,ξ_2,…,ξ_n

这些特征向量对应的特征值分别是：

λ_1,λ_2,…,λ_n

特征值可能有重根。则有下面式子成立：

Aξ_i=λ_i ξ_i

Aξ_1,Aξ_2,…,Aξ_n ]=[λ_1 ξ_1,λ_2 ξ_2,…,λ_n ξ_n]

A[ξ_1,ξ_2,…,ξ_n ]=[ξ_1,ξ_2,…,ξ_n ]\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}

记：

ξ_1,ξ_2,…,ξ_n ]=Q

P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}

则有：

A=QPQ^{-1}

实对称矩阵性质：：

实对称矩阵

A

的不同特征值对应的特征向量是正交的实对称矩阵

A

的特征值都是实数，特征向量都是实向量。

n

阶实对称矩阵

A

必可相似对角化(有

n

个线性无关的特征向量)，且相似对角阵上的元素即为矩阵本身特征值。若

λ

是

k

重特征值，则必有k个线性无关的特征向量。如果矩阵

A

是实对称矩阵，则必定存在一个正交矩阵

Q

，使得

Q^T AQ=P

，即

A=Q PQ^T

其中

P

是对角矩阵

正交矩阵性质：：

Q

正交矩阵，则

Q^T=Q^{-1}

施密特正交化：：

设

α_1,α_2,…,α_n

是

R^n

中的一个线性无关向量组，若令:

β_1=α_1

β_2=α_2-\frac{⟨α_2,β_1 ⟩}{⟨α_1,β_1 ⟩}β_1

\dots

β_n=α_n-\frac{⟨α_n,β_1 ⟩}{⟨α_1,β_1 ⟩} β_1-\frac{⟨α_n,β_2 ⟩}{⟨α_2,β_2 ⟩} β_2-…-\frac{⟨α_n,β_{n-1} ⟩}{⟨α_{n-1},β_{n-1} ⟩} β_{n-1}

则

β_1,β_2,…,β_n

就是一个正交向量组。再进行单位化：

e_i=\frac{β_i}{||β_i ||}

利用线性无关向量组，构造出一个标准正交向量组的方法，就是施密特正交化方法。由上面公式我们可以看出，

β_1,β_2,…,β_n

都是由

α_1,α_2,…,α_n

线性组合形成的。

证明：如果矩阵A是实对称矩阵，则必定存在一个正交矩阵 $Q$ ，即 $A=QPQ^T$

这个就是实对称矩阵的特征值分解，上面所有的铺垫都是为了轻松的证明这个定理。假设

A

是

n

阶实对称矩阵，其不重复特征值为：

λ_1,λ_2,…,λ_d

若

d = n

，则

A

有

n

个不相等的特征值，所有每个特征值都有一个特征向量为：

ξ_1,ξ_2,…,ξ_n

，则他们相互正交。然后由上面的特征值分解方法有：

A=QPQ^{-1}

由于

ξ_1,ξ_2,…,ξ_n ]=Q

，所以

Q

为正交矩阵，则

Q^T=Q^{-1}

,所以有：

A=QPQ^T

若

d < n

，则

A

有重根特征值，对每个重根特征值做下面处理： - 若λ_i 是k重特征值，则必有

k

个线性无关的特征向量:

ξ_{i1},ξ_{i2},…,ξ_{ik}

,将他们进行施密特正交化得到：

ξ_{i1}',ξ_{i2}',…,ξ_{ik}'

,由于

ξ_{i1}',ξ_{i2}',…,ξ_{ik}'

是由

ξ_{i1},ξ_{i2},…,ξ_{ik}

线性组合形成的，根据特征值性质可知

ξ_{i1}',ξ_{i2}',…,ξ_{ik}'

也是

λ_i

的特征向量并且相互正交。经过上面处理，

ξ_1,ξ_2,…,ξ_n

相互正交，后面的处理和上一种情况一样。

现在经过上面的一系列铺垫证明，我们得到这样一个结论：

若

A

是

n

阶是对称矩阵，那么A可以被如下分解：

A=QPQ^T

其中：

ξ_1,ξ_2,…,ξ_n ]=Q

P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}

中间特征值于特征向量是对应关系，我展开公式：

A=QPQ^T=∑_{i=1}^nλ_i ξ_i ξ_i^T

为了顺利理解下面的部分，我们需要知道矩阵与线性变换的一个关系：

每个矩阵与一个线性变换对应，所以矩阵可以看作是一个映射或一个函数。详细讲述可以参考：https://blog.csdn.net/ACM_hades/article/details/90518653

三、核函数

函数

φ (x)

可视为一个无穷维向量，那么二元函数

K (x, y)

就可以可以视为一个无穷维矩阵，这个地方有点抽象，解释如下：假设

A

为

m \times n

的矩阵，

x

为

n \times 1

的列向量，则可以通过对

A

与

x

做内积将

x

映射为一个

m

维空间中的

y

(

m \times 1

的列向量)，所以矩阵

A

就是一个函数：

A x = y

现在我对函数

f (x)

与

K (x, y)

做内积：

⟨ K (x, y), φ (x) ⟩ = \int K (x, y) φ (x) d x

这个积分的结果是一个

y

的函数

μ (y)

，也是无限维的向量。所以从这个角度讲

K (x, y)

就是函数空间中的矩阵。假设二元函数

K (x, y)

满足下面条件，就是核函数(或者叫核矩阵) 对称性(对称矩阵)：

K (x, y) = K (y, x)

正定性:

\iint f (x) K (x, y) f (y) d x d y

满足上述条件我们称为对称半正定核函数。特征值

λ

与特征函数

ψ (x)

：与上面一致

⟨ K (x, y), ψ (x) ⟩ = \int K (x, y) ψ (x) d x = λ ψ (y)

这样我可以将核函数像是实对称矩阵那样进行特征分解，所以得到下面公式：假设无穷多个特征值为：

{λ_i \}_{i=1}^∞

,对应的无穷多个正交的特征函数为：

{ψ(x)_i \}_{i=1}^∞

所以有：

K(x,y)=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i^T=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i

{ψ(x)_i \}_{i=1}^∞

也是当前函数空间的一组标准正交组基。即满足：

ψ(x)_i,ψ(x)_j 〉=∫ψ(x)_i ψ(x)_j dx=0

ψ(x)_i,ψ(x)_i 〉=∫ψ(x)_i ψ(x)_i dx=1

四、再生核希尔伯特空间

{ψ(x)_i \}_{i=1}^∞

也是原函数空间(希尔伯特空间)的一组标准正交组基,现在我们将

\{\sqrt{λ_i }ψ(x)_i \}_{i=1}^∞

做为一组正交基,形成新的函数空间叫做RKHS空间(再生核希尔伯特空间)，记为

H

空间

H

空间中的任一向量或函数可以表示为基的线性组合:

f=∑_(i=1)^∞ f_i \sqrt{λ_i }ψ(x)_i,

则函数可以用坐标(系数)表示：

f=[f_1,f_2,…]^T, g=[g_1,g_2,…]^T

,这样内积可以表示为：

⟨f,g⟩=∫∑_{i=1}^∞f_i \sqrt{λ_i } ψ(x)_i ∑_{i=1}^∞g_i \sqrt{λ_i }ψ(x)_i dx=∫∑_{i=1}^∞f_i g_i ψ(x)_i ψ(x)_i dx

_{i=1}^∞f_i g_i ∫ψ(x)_i ψ(x)_i dx=∑_{i=1}^∞f_i g_i

在

H

空间的这组基下，这样我们可以改写核函数：

K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i }ψ(y)_i

我们对核函数中的

y

每取一个特定值，都会得到一个

x

的函数，那么我们可以将核函数看作是向量

y

到

x

函数的一个函数，记作：

G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y)_i

函数

G (y)

的定义域是欧几里得空间，值域为函数空间。那么

G (y)

在

H

空间的坐标表示：

G(y)=[\sqrt{λ_i }ψ(y)_1,\sqrt{λ_i } ψ(y)_2,……]

则

y

每取一个具体值，都会是一个函数，并且可以得到这个函数在

H

空间的坐标表示，例如

y=y_0

G(y_0 )=[\sqrt{λ_i } ψ(y_0 )_1,\sqrt{λ_i }ψ(y_0 )_2,……]

表示的函数为：

G(y_0 )=K(x,y_0 )=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y_0 )_i

那么两个函数：

G(y_0 ),G(y_1)

的内积为：

〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 )

这就是核的可再生性，即用核函数再生两个核函数的內积。函数空间

H

被称为再生核希尔伯特空间（RKHS）。这个性质是非常好的，因为原本函数之间计算内积需要算无穷维的积分，但是现在只需要算核函数就好了。

五、核技术：

上面我们说过如果我们对 $y$ 进行特定值，核函数 $K (x, y)$ 就变成了一个x的函数，这样我们可以对 $y$ 进行任意取值得到一个 $x$ 的函数： $G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i }ψ(x)_i \sqrt{λ_i } ψ(y)_i$

$G (y)$ 的定义域是欧几里得空间，值域是一个函数空间。就是一个欧几里得空间到函数空间(希尔伯特空间)的映射(函数).并且 $G (y)$ 值域空间中的任意两个函数 $G(y_0 ),G(y_1))$ 的内积都可以通过核函数直接算出 $K(y_0,y_1 ))$ 需要进行无穷积分。

这样，我们无需知道这个映射 $G (y)$ 及其值域空间 $H$ 的具体形式，只需要一个对称半正定的核函数，就必然存在映射 $G (y)$ 和其值域空间 $H$ ，使得： $〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 )$ 这就是Kernel trick。

SVM的核技术：

我们的原始数据

x

是欧几里得空间的一个向量，当我们的原始数据线性不可分时，我们就希望有一个映射

G (x)

，它能把原始数据

x

映射到一个无穷维的函数空间（希尔伯特空间）中去，使的数据在这个无穷维的空间中变得线性可分。并且在svm的优化中，我们只需要两个样本的内积

x_1,x_2 〉

,那么经过映射

G (x)

后我们也只需要任意两个样本映射后的内积

G(x_0 ),G(x_1 )〉

，并不需要这个映射

G (y)

及其值域空间的具体形式。这样问题就变成了我们只要一个对称半正定的核函数就ok了。

参考链接：

http://songcy.net/posts/story-of-basis-and-kernel-part-1/http://songcy.net/posts/story-of-basis-and-kernel-part-2/

最新回复(0)