支持向量机
0. 由来
1. 核心思想
2. 硬间隔支持向量机
- 2.1 间隔最大化
- 2.2 转换为拉格朗日对偶问题
  - 2.2.1 拉格朗日对偶问题
  - 2.2.2 将问题转换为拉格朗日对偶问题
3. 软间隔支持向量机
4. 泛函基础
5. 核支持向量机
- 5.1 正定核
- 5.2 常用核函数
  - 5.2.1 多项式核函数
  - 5.2.2 高斯核函数
    - 5.2.3 字符串核函数
6. SMO算法

支持向量机

0. 由来

Cortes与Vapnik 提出线性支持向量机.

Boser Guyon Vapnik 又引入核技巧，提出非线性支持向量机。

Vapnik：俄罗斯统计学家。

1. 核心思想

可以将数据分开的超平面有很多，SVM为了达到更好的泛化效果，寻找一个能正确划分数据且使支持向量（距离分类超平面最近的样本点）间隔最大的超平面。对于线性不可分数据，有两种处理方式：

松弛处理：即允许分类器对部分样本的分类出错。
引入核函数：通过核函数将输入特征空间变换到维度更高的隐特征空间，在维度更高的隐特征空间数据变得线性可分。

支持向量机-LMLPHP

2. 硬间隔支持向量机

数据线性可分，寻找正确分类数据且间隔最大的超平面。

分类超平面：

w ∗ ⋅ x + b ∗ = 0 w^*\cdot x+b^*=0 w∗⋅x+b∗=0

决策函数：

f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x)=sign(w^*\cdot x + b^*) f(x)=sign(w∗⋅x+b∗)

2.1 间隔最大化

2.1.1 函数间隔

∣ w ⋅ x + b ∣ |w\cdot x+b| ∣w⋅x+b∣能够相对的表示样本到超平面的距离， w ⋅ x + b w\cdot x+b w⋅x+b的符号与 y y y的符号是否一致可以表示分类是否正确，故可以定义函数间隔来表示分类的正确性和置信度：

γ ^ i = y i ( w ⋅ x i + b ) γ ^ = min ⁡ i = 1... N γ ^ i \hat \gamma_i = y_i(w\cdot x_i+b) \\ \hat \gamma = \min_{i=1...N}\hat \gamma_i γ^i=yi(w⋅xi+b)γ^=i=1...Nminγ^i

2.1.2 几何间隔

函数间隔存在一些问题：当 w w w和 b b b成比例的变化时，分类超平面没有改变但函数间隔确发生了变化，因此需要对 w w w和 b b b进行规范化，由此得出了几何间隔：

γ i = y i ( w ∥ w ∥ 2 ⋅ x i + b ∥ w ∥ 2 ) γ = min ⁡ i = 1... N γ i \gamma_i = y_i(\frac{w}{\Vert w \Vert_2}\cdot x_i+\frac{b}{\Vert w \Vert_2}) \\ \gamma = \min_{i=1...N}\gamma_i γi=yi(∥w∥2w⋅xi+∥w∥2b)γ=i=1...Nminγi

函数间隔和几何间隔存在如下关系：

γ i = γ ^ i ∥ w ∥ 2 γ = γ ^ ∥ w ∥ 2 \gamma_i = \frac{\hat \gamma_i}{\Vert w \Vert_2}\\ \gamma = \frac{\hat \gamma}{\Vert w \Vert_2} γi=∥w∥2γ^iγ=∥w∥2γ^

2.1.2 间隔最大化

确保分类正确的同时定义间隔最大化有：

max ⁡ w , b γ ^ ∥ w ∥ 2 s . t . y i ( w ⋅ x i + b ) ≥ γ ^ γ ^ ≥ 0 \max_{w,b} \quad \frac{\hat \gamma}{\Vert w \Vert_2} \\ s.t. \quad y_i(w\cdot x_i+b)\ge \hat \gamma\\ \hat \gamma \ge 0 w,bmax∥w∥2γ^s.t.yi(w⋅xi+b)≥γ^γ^≥0

函数间隔 γ ^ \hat \gamma γ^的取值并不影响最优化问题的解事实上，假设将 w , b w,b w,b按比例改变为 λ w , λ b \lambda w,\lambda b λw,λb这时函数间隔成为 λ γ ^ \lambda \hat \gamma λγ^，不妨令 γ ^ = 1 \hat \gamma=1 γ^=1则有：

min ⁡ w , b 1 ∥ w ∥ 2 s . t . y i ( w ⋅ x i + b ) ≥ 1 \min_{w,b} \quad \frac{1}{\Vert w \Vert_2} \\ s.t. \quad y_i(w\cdot x_i+b)\ge 1 w,bmin∥w∥21s.t.yi(w⋅xi+b)≥1

该问题的解具有存在性和唯一性，详细证明见李航《统计机器学习》

2.2 转换为拉格朗日对偶问题

2.2.1 拉格朗日对偶问题

对于含有不等式的约束问题：

min ⁡ f ( x ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \min \quad f(x)&\\ s.t.\quad c_i(x)&\le 0 \\ h_j(j)&=0 \end{aligned} minf(x)s.t.ci(x)hj(j)≤0=0

希望找到一个无约束优化问题，使得无约束优化问题的解即为原问题的解，由此构造了拉格朗日函数：

L ( x , α , β ) = f ( x ) + ∑ i α i c i ( x ) + ∑ j β i h j ( x ) L(x,\alpha,\beta) = f(x)+\sum_i \alpha_i c_i(x)+\sum_j\beta_i h_j(x)\\ L(x,α,β)=f(x)+i∑αici(x)+j∑βihj(x)

通过对 α \alpha α加限制可以做到：

max ⁡ α ≥ 0 , β L ( x , α , β ) = f ( x ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \quad \max_{\alpha\ge0,\beta}L(x,\alpha,\beta)&=f(x)\\ s.t.\quad c_i(x)&\le 0 \\ h_j(j)&=0 \end{aligned} α≥0,βmaxL(x,α,β)s.t.ci(x)hj(j)=f(x)≤0=0

原始问题和对偶问题具有如下关系：

max ⁡ α , β : α ≥ 0 min ⁡ x L ( x , α , β ) ≤ min ⁡ α , β : α ≥ 0 max ⁡ x L ( x , α , β ) \max_{\alpha,\beta:\alpha\ge0} \min_x L(x,\alpha,\beta) \le \min_{\alpha,\beta:\alpha\ge0}\max_x L(x,\alpha,\beta) α,β:α≥0maxxminL(x,α,β)≤α,β:α≥0minxmaxL(x,α,β)

则原问题变为：

max ⁡ α ≥ 0 , β min ⁡ x L ( x , α , β ) s . t . c i ( x ) ≤ 0 h j ( j ) = 0 \begin{aligned} \quad \max_{\alpha\ge0,\beta}\min_x\quad L(x,\alpha,\beta)\\ s.t.\quad c_i(x)\le 0\\ h_j(j)=0 \end{aligned} α≥0,βmaxxminL(x,α,β)s.t.ci(x)≤0hj(j)=0

某些情况下原始问题和对偶问题的最优值相等（详细证明需要对偶相关理论），不妨设满足这个最优值的解为 ( x ∗ , α ∗ , β ∗ ) (x^*,\alpha^*,\beta^*) (x∗,α∗,β∗)，则有成立的充要条件，即KKT条件：

∇ x L ( x ∗ , α ∗ , β ∗ ) = 0 α i ≥ 0 i = 1 , 2 , . . . , k α i ∗ c i ( x ) = 0 i = 1 , 2 , . . . , k c i ( x ) ≤ 0 i = 1 , 2 , . . . , k h j ( x ) = 0 j = 1 , 2 , . . . , l \nabla_xL(x^*,\alpha^*,\beta^*)=0\\ \alpha_i \ge 0\quad i=1,2,...,k\\ \alpha^*_i c_i(x)=0 \quad i=1,2,...,k\\ c_i(x)\le0\quad i=1,2,...,k\\ h_j(x)=0 \quad j=1,2,...,l ∇xL(x∗,α∗,β∗)=0αi≥0i=1,2,...,kαi∗ci(x)=0i=1,2,...,kci(x)≤0i=1,2,...,khj(x)=0j=1,2,...,l

其中 α i ∗ c i ( x ) = 0 \alpha^*_i c_i(x)=0 αi∗ci(x)=0为对偶互补条件

2.2.2 将问题转换为拉格朗日对偶问题

定义拉格朗日函数有：

L ( w , b , α ) = 1 2 ∥ w ∥ 2 2 − ∑ i N α i y i ( w ⋅ x i + b ) + ∑ i N α i L(w,b,\alpha)=\frac{1}{2}\Vert w \Vert_2^2-\sum_i^N\alpha_i y_i(w\cdot x_i+b)+\sum_i^N\alpha_i L(w,b,α)=21∥w∥22−i∑Nαiyi(w⋅xi+b)+i∑Nαi

max ⁡ α : α ≥ 0 min ⁡ w , b L ( w , b , α ) \max_{\alpha:\alpha\ge0} \min_{w,b} L(w,b,\alpha) α:α≥0maxw,bminL(w,b,α)

求解 min ⁡ w , b L ( w , b , , α ) \min_{w,b}L(w,b,,\alpha) minw,bL(w,b,,α)有：

∇ w L ( w , b , α ) = w − ∑ i N α i y i x i = 0 ∇ b L ( w , b , α ) = − ∑ i N α i y i = 0 得： w = ∑ i N α i y i x i ∑ i N α i y i = 0 \nabla_w L(w,b,\alpha)=w-\sum_i^N\alpha_iy_ix_i=0\\ \nabla_b L(w,b,\alpha)= -\sum_i^N\alpha_iy_i=0\\ 得：\\ w=\sum_i^N\alpha_iy_ix_i\\ \sum_i^N\alpha_iy_i=0 ∇wL(w,b,α)=w−i∑Nαiyixi=0∇bL(w,b,α)=−i∑Nαiyi=0得：w=i∑Nαiyixii∑Nαiyi=0

带原拉格朗日函数整理得：

L ( w , b , α ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ L(w,b,α)=−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi

对偶问题有：

max ⁡ α L ( w , b , α ) = min ⁡ α − L ( w , b , α ) \max_{\alpha} L(w,b,\alpha)=\min_{\alpha}-L(w,b,\alpha) αmaxL(w,b,α)=αmin−L(w,b,α)

则最后需要求解得问题变为：

min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 α i ≥ 0 , i = 1 , 2 , . . . , N \min_{\alpha} \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ s.t. \sum_{i=1}^{N}\alpha_i y_i=0 \\ \alpha_i \ge 0,\quad i=1,2,...,N αmin21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαis.t.i=1∑Nαiyi=0αi≥0,i=1,2,...,N

求解出最优的 α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) T \alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T α∗=(α1∗,α2∗,...,αN∗)T，后有解：

w ∗ = ∑ i = 1 N α i ∗ y i x i b ∗ = y j − ∑ i = 1 N α i ∗ y i ( x i ⋅ x j ) w^* = \sum_{i=1}^N\alpha_i^*y_ix_i\\ b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j) w∗=i=1∑Nαi∗yixib∗=yj−i=1∑Nαi∗yi(xi⋅xj)

决策函数有：

f ( x ) = s i g n ( ∑ i = 1 N α i ∗ y i ( x ⋅ x i ) + b ∗ ) f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*) f(x)=sign(i=1∑Nαi∗yi(x⋅xi)+b∗)

3. 软间隔支持向量机

对于线性不可分数据，某些样本不满足函数距离不小于1得条件，因此可以通过对每个样本引入一个松弛变量 ξ i ≥ 0 \xi_i \ge0 ξi≥0来松弛约束，并引入一个惩罚系数 C C C最小化所有松弛变量，则有如下软间隔得支持向量机问题：

m i n 1 2 ∥ w ∣ 2 2 + C ∑ i ξ i s . t . y i ( w ⋅ x i + b ) ≥ 1 − ξ i , i = 1 , 2 , . . . , N ξ i ≥ 0 , i = 1 , 2 , . . . , N min \quad \frac{1}{2}\Vert w \vert_2^2+C\sum_i \xi_i\\ s.t. \quad y_i(w\cdot x_i+b)\ge 1-\xi_i,\quad i=1,2,...,N\\ \xi_i\ge 0, \quad i=1,2,...,N min21∥w∣22+Ci∑ξis.t.yi(w⋅xi+b)≥1−ξi,i=1,2,...,Nξi≥0,i=1,2,...,N

则此时拉格朗日函数有：

L ( w , b , ξ , α , μ ) = 1 2 ∥ w ∣ 2 2 + C ∑ i ξ i − ∑ i α i ( y i ( w ⋅ x i + b ) − 1 + ξ i ) − ∑ i μ i ξ i L(w,b,\xi,\alpha,\mu)=\frac{1}{2}\Vert w \vert_2^2+C\sum_i \xi_i-\sum_i\alpha_i(y_i(w\cdot x_i+b)-1+\xi_i)-\sum_i\mu_i\xi_i L(w,b,ξ,α,μ)=21∥w∣22+Ci∑ξi−i∑αi(yi(w⋅xi+b)−1+ξi)−i∑μiξi

求解偏导数有：

∇ w L ( w , b , ξ , α , μ ) = w − ∑ i α i y i x i = 0 ∇ b L ( w , b , ξ , α , μ ) = − ∑ i α i y i = 0 ∇ ξ i L ( w , b , ξ , α , μ ) = C − α i − μ i = 0 \nabla_wL(w,b,\xi,\alpha,\mu)=w-\sum_i \alpha_i y_i x_i = 0\\ \nabla_bL(w,b,\xi,\alpha,\mu)= -\sum_i\alpha_iy_i=0\\ \nabla_{\xi_i} L(w,b,\xi,\alpha,\mu)= C-\alpha_i-\mu_i=0 ∇wL(w,b,ξ,α,μ)=w−i∑αiyixi=0∇bL(w,b,ξ,α,μ)=−i∑αiyi=0∇ξiL(w,b,ξ,α,μ)=C−αi−μi=0

解得：

w = ∑ i α i y i x i ∑ i α i y i = 0 C − α i − ξ i = 0 w=\sum_i \alpha_i y_i x_i\\ \sum_i\alpha_iy_i=0\\ C-\alpha_i-\xi_i=0 w=i∑αiyixii∑αiyi=0C−αi−ξi=0

代入原问题得：

min ⁡ w , b , ξ L ( w , b , α , ξ , μ ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i \min_{w,b,\xi}L(w,b,\alpha,\xi,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ w,b,ξminL(w,b,α,ξ,μ)=−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi

需要求解得对偶问题有：

max ⁡ α , μ : α ≥ 0 , μ ≥ 0 min ⁡ w , b , ξ L ( w , b , α , ξ , μ ) = max ⁡ α , μ : α ≥ 0 , μ ≥ 0 − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i s . t . ∑ i α i y i = 0 C − α i − μ i = 0 α i ≥ 0 μ i ≥ 0 \max_{\alpha,\mu:\alpha\ge0,\mu\ge0} \min_{w,b,\xi} L(w,b,\alpha,\xi,\mu)\\ = \max_{\alpha,\mu:\alpha\ge0,\mu\ge0}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ s.t.\quad \sum_i\alpha_iy_i=0\\ \quad C-\alpha_i-\mu_i=0\\ \quad \alpha_i\ge0\\ \quad \mu_i \ge 0 α,μ:α≥0,μ≥0maxw,b,ξminL(w,b,α,ξ,μ)=α,μ:α≥0,μ≥0max−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαis.t.i∑αiyi=0C−αi−μi=0αi≥0μi≥0

合并约束条件，转为求最小目标，则有对偶问题：

min ⁡ α : α ≥ 0 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i α i y i = 0 0 ≤ α i ≤ C \min_{\alpha:\alpha\ge0}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ s.t.\quad \sum_i\alpha_iy_i=0\\ \quad 0\le\alpha_i\le C α:α≥0min21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαis.t.i∑αiyi=00≤αi≤C

4. 泛函基础

泛函分析形成于20世纪30年代，从变分问题、积分方程和理论物理得研究中发展而来，主要研究：

无限维向量空间上的函数、算子和极限理论；
拓扑线性空间到拓扑线性空间之间，满足各种拓扑和代数条件的映射。

算子：把无限维空间到无限维空间的变换。

4.1 度量（距离）空间

4.1.1 定义

设X是非空集合，对于 X X X中的任意两元素 x x x与 y y y，按某一法则都对应唯一的实数 ρ ( x , y ) \rho(x,y) ρ(x,y)，并满足以下三条公理（距离公理）：

非负性： ρ ( x , y ) ≥ 0 \rho(x,y)\ge 0 ρ(x,y)≥0， ρ ( x , y ) = 0 \rho(x,y)=0 ρ(x,y)=0当且仅当 x = y x=y x=y
对称性： ρ ( x , y ) = ρ ( y , x ) \rho(x,y) = \rho(y,x) ρ(x,y)=ρ(y,x)
三角不等式: 对任意的 x , y , z x,y,z x,y,z有： ρ ( x , y ) ≤ ρ ( x , z ) + ρ ( z , y ) \rho(x,y)\le \rho(x,z) + \rho(z,y) ρ(x,y)≤ρ(x,z)+ρ(z,y)

则称：

ρ ( x , y ) \rho(x,y) ρ(x,y)为 x x x与 y y y间的距离（或度量）；

X X X是以 ρ \rho ρ为距离的距离空间（或度量空间），记成 ( X , ρ ) (X,\rho) (X,ρ)，或简记为 X X X； X X X中的元素称为 X X X中的点。

点（元素）包含：真正意义下得点、数列和函数。
泛函分析是研究一个空间中点与点之间的关系，以及空间中符合一定条件的点组成的该空间子集的一些性质。

4.1.2 ρ \rho ρ次幂可积函数空间

L p [ a , b ] L^p[a,b] Lp[a,b]表示区间 [ a , b ] [a,b] [a,b]绝对值的 ρ \rho ρ次幂 L L L可积函数的全体，并把几乎处处相等的函数看成是同一个函数，对于 x , y ∈ L p [ a , b ] x,y\in L^p[a,b] x,y∈Lp[a,b]，规定:

ρ ( x , y ) = [ ∫ a b ∣ x ( t ) − y ( t ) ∣ d t ] 1 p , p ≥ 1 \rho(x,y)=\bigg[\int_a^b\big|x(t)-y(t)\big|dt\bigg]^\frac{1}{p},p\ge1 ρ(x,y)=[∫ab∣∣x(t)−y(t)∣∣dt]p1,p≥1

则 L p [ a , b ] L^p[a,b] Lp[a,b]构成一个距离空间，称之为 ρ \rho ρ次幂可积函数空间。

4.1.3 完备性概念

设 ( X , ρ ) (X,\rho) (X,ρ)为度量空间：

设 { x n } n = 1 ∞ \{x_n\}_{n=1}^\infty {xn}n=1∞是 X X X中的点列，如果对于任一正数 ϵ \epsilon ϵ,存在正数 N N N，使得当自然数 n , m ≥ N n,m\ge N n,m≥N时：

ρ ( x n , x m ) < ϵ \rho(x_n,x_m)<\epsilon ρ(xn,xm)<ϵ

就称 { x n } n = 1 ∞ \{x_n\}_{n=1}^\infty {xn}n=1∞是 X X X中的基本点列，或者称为 C a u c h y Cauchy Cauchy点列。
如果度量空间$ X
中每个基本点列都收敛，称中每个基本点列都收敛，称中每个基本点列都收敛，称X$是完备度量空间。

4.2 线性空间

空间中的任意两点可以做加法或与数相乘，运算的结果仍未该空间的点，并且该空间中的每个点可以定义长度，这个长度称为该点的范数，范数可以视为欧式空间中向量长度概念的推广。

4.3 赋范空间

设 X X X是实（或复）线性空间，如果对于 X X X中每个元素 x x x，按照一定的法则对应于实数 ∥ x ∥ \Vert x\Vert ∥x∥，且满足：

∥ x ∥ ≥ 0 \Vert x\Vert \ge 0 ∥x∥≥0， ∥ x ∥ = 0 \Vert x\Vert =0 ∥x∥=0当且仅当 X X X等于零元
∥ a x ∥ = ∣ a ∣ ∥ x ∥ \Vert ax\Vert = |a|\Vert x\Vert ∥ax∥=∣a∣∥x∥， a a a是实（或复）数
∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \Vert x+y\Vert\le\Vert x\Vert+\Vert y\Vert ∥x+y∥≤∥x∥+∥y∥

则称 ∥ X ∥ \Vert X\Vert ∥X∥是实（或复）赋范线性空间， ∥ x ∥ \Vert x\Vert ∥x∥称为 x x x的范数

赋范线性空间必然是距离空间：定义
ρ ( x , y ) = ∥ x − y ∥ \rho(x,y)=\Vert x-y\Vert ρ(x,y)=∥x−y∥
与度量空间不同：
- 平移不变性： d ( x + a , y + a ) = d ( x , y ) d(x+a,y+a)=d(x,y) d(x+a,y+a)=d(x,y), x , y , a x,y,a x,y,a属于 X X X
- 齐次性： d ( a x , a y ) = ∣ a ∣ d ( x , y ) d(ax,ay)=|a|d(x,y) d(ax,ay)=∣a∣d(x,y), x , y x,y x,y属于 X X X， a a a属于 K K K

4.4 巴拿赫（Banach）空间

如果赋范线性空间 ( X , ∣ ∣ . ∣ ∣ ) (X, ||.||) (X,∣∣.∣∣)是完备的，则称(X, ||.||)是Banach空间。

例子：

n n n维Euclid空间 R n R^n Rn是Banach空间
L p [ a , b ] ( p ≥ 1 ) L^p[a,b](p\ge1) Lp[a,b](p≥1)是Banach空间

算子： T T T是由赋范线性空间 X X X中的某个子集 D D D到赋范线性空间中的一个映射，则称 T T T是算子， D D D是 T T T的定义域，记为 D ( T ) D(T) D(T)，像集 { y ∣ y = T x , x ∈ D } \{y|y=Tx,x\in D\} {y∣y=Tx,x∈D}是 T T T的值域，记为 T ( D ) T(D) T(D)。

线性算子： T T T满足可加性和齐次性

可加性： T ( x + y ) = T x + T y T(x+y)=Tx+Ty T(x+y)=Tx+Ty
齐次性： T ( a x ) = a T ( x ) T(ax)=aT(x) T(ax)=aT(x)

**有界算子：**存在正数 M M M使得对于一切 x ∈ D ( T ) x\in D(T) x∈D(T)，有 ∥ T x ∥ ≤ M ∥ x ∥ \Vert Tx\Vert \le M\Vert x\Vert ∥Tx∥≤M∥x∥

4.5 内积空间

设X 是定义在实（或复）数域 K K K上的线性空间，若对于 X X X任意一对有序元素 x , y x,y x,y, 恒对应数域 K K K的值 ( x , y ) (x,y) (x,y)，且满足：

( a x , y ) = a ( x , y ) (ax,y)=a(x,y) (ax,y)=a(x,y)
( x + y , z ) = ( x , z ) + ( y , z ) (x+y,z)=(x,z)+(y,z) (x+y,z)=(x,z)+(y,z)
( x , y ) = ( y , z ) (x,y)=(y,z) (x,y)=(y,z)
( x , x ) ≥ 0 (x,x)\ge0 (x,x)≥0 ，且 ( x , x ) = 0 (x,x)=0 (x,x)=0的充要条件是 x = 0 x=0 x=0

则称 X X X为内积空间， ( x , y ) (x,y) (x,y)称为 x , y x,y x,y的内积。

4.6 希尔伯特(Hibert)空间

可由内积导出范数： ∥ x ∥ = ( x , x ) \Vert x\Vert = \sqrt{(x,x)} ∥x∥=(x,x)

完备的内积空间称为希尔伯特空间。

5. 核支持向量机

通过一个非线性变换将输入空间(欧氏空间 R R R或离散集合)对应于一个特征空间(希尔伯特空间)，使得在输入空间中的超曲面模型对应于特征空间中的超平面模型(支持向量机)。

K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x,z)=\phi(x)\cdot\phi(z) K(x,z)=ϕ(x)⋅ϕ(z)

其中 K ( x , z ) K(x,z) K(x,z)为核函数， ϕ ( x ) \phi(x) ϕ(x)为映射函数。

在学习与预测中只定义核函数 K ( x , z ) K(x,z) K(x,z)，而不显式地定义映射函数。

则核支持向量机的目标函数有：

W ( α ) = 1 2 ∑ i ∑ j α i α j y i y j K ( x i , x j ) − ∑ i α i W(\alpha)=\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_i\alpha_i\\ W(α)=21i∑j∑αiαjyiyjK(xi,xj)−i∑αi

核支持向量机要求解的问题：

min ⁡ α 1 2 ∑ i ∑ j α i α j y i y j K ( x i , x j ) − ∑ i α i s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , . . . , N \min_\alpha\quad\frac{1}{2}\sum_i\sum_j\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_i\alpha_i\\ s.t. \quad \sum_{i=1}^N\alpha_iy_i=0\\ \quad 0\le\alpha_i \le C,\quad i=1,2,...,N αmin21i∑j∑αiαjyiyjK(xi,xj)−i∑αis.t.i=1∑Nαiyi=00≤αi≤C,i=1,2,...,N

决策函数：

f ( x ) = s i g n ( ∑ i α i ∗ y i K ( x i , x ) + b ∗ ) f(x)=sign\bigg(\sum_i\alpha_i^*y_iK(x_i,x)+b^*\bigg) f(x)=sign(i∑αi∗yiK(xi,x)+b∗)

5.1 正定核

5.2 常用核函数

5.2.1 多项式核函数

K ( x , z ) = ( x ⋅ z + 1 ) p K(x,z)=(x\cdot z+1)^p K(x,z)=(x⋅z+1)p

对应的支持向量机为P次多项式分类器

5.2.2 高斯核函数

K ( x , z ) = e x p ( − ∥ x − z ∥ 2 2 σ ) K(x,z)=exp(-\frac{\Vert x-z\Vert^2}{2\sigma}) K(x,z)=exp(−2σ∥x−z∥2)

高斯核函数对应的映射函数可以将数据映射到无限维

5.2.3 字符串核函数

6. SMO算法

序列最小优化算法

求解如下问题：

是一种启发式算法，加快求解多变量约束问题

如果所有变量的解都满足此最优化问题的KKT条件，那么得到解；
否则，选择两个变量，固定其它变量，针对这两个变量构建一个二次规划问题，称为子问题，可通过解析方法求解，提高了计算速度。子问题的两个变量：一个是违反KKT条件最严重的那个，另一个由约束条件自动确定。

步骤：

求解两个变量的子问题二次规划问题
启发式寻找子问题的两个变量
继续执行1

参考资料

《统计机器学习》李航

https://baike.baidu.com/item/弗拉基米尔·万普尼克?fr=aladdin

https://blog.pluskid.org/archives/702

The_Only_God