CS229 笔记06

朴素贝叶斯

事件模型
事件模型与普通的朴素贝叶斯算法不同的是，在事件模型中，假设文本词典一共有 \(k\) 个词，训练集一共有 \(m\) 封邮件，第 \(i\) 封邮件的词的个数为 \(n_i\) ，则 \(x^{(i)} \in \{1,2,\cdots,k\}^{n_i}\) 。
此时模型的参数为：
\[
\begin{eqnarray*}
\phi_{k|y=0}&=&P(x_j=k|y=0)\\[1em]
\phi_{k|y=1}&=&P(x_j=k|y=1)\\[1em]
\phi_{y=0}&=&P(y=0)\\[1em]
\phi_{y=1}&=&P(y=1)\\[1em]
P(x,y)&=&\left(\prod_{j=1}^nP(x_j|y)\right)P(y)
\end{eqnarray*}
\]

神经网络

简介
这部分并没有详细讲。

支持向量机

记号的声明
\[
\begin{eqnarray*}
x,W&\in&{\Bbb R}^n\\[1em]
y&\in&\{-1,1\}\\[1em]
b&\in&{\Bbb R}\\[1em]
g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em]
h_{W,b}(x)&=&g(W^{\rm T}x+b)
\end{eqnarray*}
\]
超平面 \((W,b)\) 与一个样本 \((x^{(i)},y^{(i)})\) 的Functional Margin（函数间隔） \(\hat{\gamma}^{(i)}\) 定义为：
\[
\hat\gamma^{(i)}\xlongequal{def}y^{(i)}\left(W^{\rm T}x+b\right)
\]
超平面 \((W,b)\) 与整个训练集的函数间隔 \(\hat{\gamma}\) 定义为：
\[
\hat\gamma\xlongequal{def}\min_i\hat\gamma^{(i)}
\]
超平面 \((W,b)\) 与一个样本 \((x^{(i)},y^{(i)})\) 的Geometric Margin（几何间隔） \(\gamma^{(i)}\) 定义为样本 \((x^{(i)},y^{(i)})\) 与超平面 \((W,b)\) 之间的距离，则样本在超平面上的投影为：
\[
x^{(i)}-\frac{W}{||W||}\gamma^{(i)}
\]
该点满足：
\[
\begin{eqnarray*}
W^{\rm T}\left(x^{(i)}-\frac{W}{||W||}\gamma^{(i)}\right)+b&=&0\\[1em]
W^{\rm T}x^{(i)}+b&=&\frac{W^{\rm T}W}{||W||}\gamma^{(i)}\\[1em]
W^{\rm T}x^{(i)}+b&=&||W||\gamma^{(i)}\\[1em]
\gamma^{(i)}&=&\left(\frac{W}{||W||}\right)^{\rm T}x^{(i)}+\frac{b}{||W||}\\[1em]
\end{eqnarray*}
\]
更一般地（为了考虑分类结果的正误），将几何间隔 \(\hat\gamma^{(i)}\) 定义为：
\[
\gamma^{(i)}\xlongequal{def}y^{(i)}\left[\left(\frac{W}{||W||}\right)^{\rm T}x^{(i)}+\frac{b}{||W||}\right]
\]
而一般会将参数 \(||W||\) 归一化使其等于1，此时几何等于函数间隔：
\[
\gamma^{(i)}\xlongequal{def}y^{(i)}\left(W^{\rm T}x+b\right)
\]
超平面 \((W,b)\) 与整个训练集的几何间隔 \(\gamma\) 定义为：
\[
\gamma\xlongequal{def}\min_i\gamma^{(i)}
\]
学习算法的目的就是最大化几何间隔。

gamma

CS229 笔记06

CS229 笔记06

朴素贝叶斯

神经网络

支持向量机