概率论复习

概率(Probability)

离散随机变量(Discrete Random Variables)

概率质量函数(Probability Mass Function)

\[f_{X}(x) = P(X = x),\quad where\ 0 \leqslant P(X = x) \leqslant 1\]
\[\sum_{i=1}^{n}f_{X}(x_i)=1\]

联合概率(Joint Probability)

\[P(X = x, Y = y)\]

边缘概率(Marginal Probability)

\[P(X = x) = \sum_{y}{P(X = x, Y = y)} = \sum_{y}{P(X = x|Y = y)P(Y = y)}\]

条件概率(Conditional Probability)

\[P(X = x|Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)}\]

贝叶斯理论(Bayes‘ Theorem)

\[P(X = x|Y = y) = \frac{P(Y = y|X = x)P(X = x)}{P(Y = y)}\]

独立与条件独立(Independence and Conditional Independence)

无条件独立

\[X \perp Y \leftrightarrow P(X, Y) = P(X)P(Y)\]

即:联合概率等于边缘概率之积

随机变量间的无条件独立在现实中十分罕见,概率模型中的变量(X=是否下大雨,Y=是否打球)间通常都存在互相影响的因素。
但这些因素大多是通过其他变量(如 Z=是否在室外)间接影响。

条件独立

\[X \perp Y|Z \leftrightarrow P(X, Y|Z) = P(X|Z)P(Y|Z)\]

即:条件联合密度等于条件边缘密度之积

例子:X = 是否下大雨,Y = 是否打球,Z = 是否在室外;
如果我们知道 Z,则预测 X 不需要知道 Y,预测 Y 也不需要知道 X,亦即 X 与 Y 在 Z 的条件下独立。

连续随机变量(Continuous Random Variables)

概率密度函数(Probabilistic Density Function)

\[f(x) = p(X = x)\]
\[\int_{-\infty}^{+\infty}f(x)\mathrm{d}x = 1\]

累积分布函数(Accumulative Distribution Function)

\[F(x) = P(X \leqslant x) = \int_{-\infty}^{x}f(x)\mathrm{d}x\]
ADF 是 单调递增函数(monotonically increasing function)

期望(Expectation)

期望亦即平均值(Mean)。

  • 对于离散随机变量:
    \[E(X) = \sum_{x}{xP(X=x)} \triangleq \mu\]
  • 对于连续随机变量:
    \[E(X) = \int_{-\infty}^{+\infty}xf(x)\mathrm{d}x \triangleq \mu\]

方差(Variance)

\begin{align*}\notag
D(X) &= E[(X - \mu)^2] \triangleq \sigma^2 \\
&= E(X^2) - \mu^2
\end{align*}

分位数(Quantiles)

\[\alpha=F(x_{\alpha}) = \int_{-\infty}^{x_{\alpha}}f(x)\mathrm{d}x\]


二元数据模型(Binary Data Model)

二项分布(Binomial Distribution)

设某随机变量 \(X\) 服从二项分布,其 PMF(概率质量函数)为:
\[Bin(x|n;\theta) = C_{n}^{x} \cdot \theta^{x} (1-\theta)^{n-x}, \quad where \ C_{n}^{x} = \frac{n!}{(n-x)!x!}, \quad x = 0, 1, ..., n\]
该离散函数的每个点都表示\(n\)次试验下该事件发生\(x\)次的概率。

伯努利分布(Bernoulli Distribution)

\[Ber(x;\theta) = \theta^{x} (1-\theta)^{1-x}, \quad where \ \in \{0, 1\}\]

对伯努利模型的参数估计(Parameter Estimation)

最大似然估计(Maximum Likelihood Estimation)

假设每个观测值独立同分布(Independent Identical Distribution),我们可以写出这些观测值在伯努利模型下的似然性(likelihood):
\[p(D| \theta) = \prod_{i=1}^{n} p( x_{i} | \theta ) = \prod_{i=0}^{n} \theta^{x_i}(1-\theta)^{1-x_i}\]

定义似然函数:
\[L(\theta) = logp(D|\theta) = \sum_{i=0}^{n} x_i log\theta + (1-x_i) log(1-\theta)\]

我们需要找到\(p(D| \theta)\)关于\(\theta\)的最大似然估计值:
\[Set \ \frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta} = 0,\quad\ we\ obtain \\
\hat{\theta} = \frac{1}{n}\sum_{i=1}^{n}x_i\]

即\(x=1\)在所有观测值中出现的比例。

  • 最大似然估计方法存在的问题
    在某些情况,尤其是当数据量比较小时,可能会出现\(x=1\)从未出现的情况。(例如掷3次硬币都是反面,Volleyball 在5篇体育类新闻中均未出现)
    此时很明显出现了过拟合(Overfitting)。
    解决方案:“平滑处理”(Smooth)(依据?)——用参数\(\theta\)的先验(prior)做贝叶斯推断(Bayesian Inference)

贝叶斯推断(Bayesian Inference)

β分布(Beta Distribution)

β分布定义在区间\([0, 1]\)之间:
\[Beta(x|a,b) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}, \\
where \quad B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \quad a, b > 0\]

其数字特征(Numerical Characteristic)分别为
\[\mu = \frac{a}{a+b}\\
\sigma = \frac{ab}{(a+b)^2(a+b+1)}\]

Intro to Probabilistic Model-LMLPHP

  • 当\(a = b=1\)时,我们得到的是均匀分布;
  • 当\(a, b < 1\)时,我们得到的是双峰分布(峰值在\(x=0, x=1\)处);
  • 当\(a, b > 1\)时,我们得到的是单峰分布;
β-伯努利模型(Beta-Bernoulli Model)
  • 似然概率(Likelihood)

假设观测数据 iid,则似然概率可以写为:
\[p(D|\theta) = \theta^{n_1}(1-\theta)^{n_0} \\
where \quad n_1 = \sum_{i=1}^{n} \mathbb{I}(x_i = 1), \quad n_0 = \sum_{i=1}^{n} \mathbb{I}(x_i = 0)\]
\(n_0\),\(n_1\)分别表示\(D\)中\(x=0\),\(x=1\)出现的次数。(很明显,\(n = n_0 + n_1\))
这两个数字称为数据\(D\)的充分统计量(Sufficient Statistics),意思是我们只需要这两个统计量,就可以得到推断\(\theta\)所需要的关于数据\(D\)的全部信息。

  • 先验概率(Prior)

首先,我们需要先验定义在区间\([0, 1]\)之间。其次,如果先验和似然的形式相同,即类似于这种:
\[p(\theta) \propto \theta^{\gamma_1}(1-\theta)^{\gamma_0}\\
where \quad \gamma_1\ and\ \gamma_0\ are\ some\ parameters\]
我们就可以方便地求出后验概率(指数相加即可):
\[p(\theta|D) \propto p(\theta)p(D|\theta) = \theta^{N_1+\gamma_1} \theta^{N_0+\gamma_0}\]
这种似然形式相同的先验,我们称之为共轭先验(Conjugate Prior)
对于伯努利模型,其共轭先验就是上面提到的β分布:
\[Beta(\theta|a,b) \propto \theta^{a-1} (1-\theta)^{b-1}\]

  • 后验概率(Posterior)

根据先验、似然、贝叶斯公式,我们可以求出后验概率:

\begin{align*}\notag
p(\theta|D,a,b) &= \frac {p(\theta|a, b)p(D|\theta)} {p(D, a, b)}\\
&= \frac {p(\theta|a, b)p(D|\theta)} {\int_0^1p(\theta|a, b)p(D|\theta,a,b) \mathrm{d}x}\\
&= Beta(\theta|n_1+a, n_0+b)
\end{align*}

\(a, b\)可视为伪计数(Pseudo Count),假设先验服从均匀分布,即先验参数\(a=1,b=1\),此时相当于对数据做拉普拉斯平滑(Laplace Smoothing),也叫 Laplace’s Rule of Succession。

  • Bayesian Sequential Update
    使用分批(Batch)数据 \(D_i \quad i = 1, 2, ..., N\) 更新后验概率:

\begin{align*}\notag
p\left (\theta \bigg\rvert \bigcup_{i=1}^{N}D_i,a,b\right ) &\propto \theta^{a-1+\sum_{i=1}^{N}n_{1i}} (1-\theta)^{b-1+\sum_{i=1}^{N}n_{0i}}\\
&\propto Beta\left (\theta \ \bigg\rvert \ a+\sum_{i=1}^{N}n_{1i}, b+\sum_{i=1}^{N}n_{0i}\right )
\end{align*}

  • Bayesian Predictions —— 后验预测分布(Posterior Predictive Distribution)
    预测下一次伯努利试验结果
    \[p(x=1|D, a,b) = \int_0^1 p(x=1|\theta)p(\theta|D,a,b)\mathrm{d}\theta\]

\begin{align*}\notag
p(\hat{x}=1|D, a,b) &= \int_0^1 p(x=1|\theta)p(\theta|D,a,b)\mathrm{d}\theta\\
&= \int_0^1 \theta Beta(\theta|n_1+a,n_0+b) \mathrm{d}\theta\\
&= \mathbb{E}(\theta|D) = \frac{n_1+a}{n_1+a+n_0+b}
\end{align*}

由此可见,当\(n_0, n_1 \gg b, a\)时,先验的作用可忽略不计。


类别数据模型(Categorical Data Model)

狄利克雷分布(Dirichlet Distribution)

狄利克雷分布是多元普遍化(Multivariate Generalization)的β分布,定义在 Probability Simplex 上:
\[S_K = \{x:0 \leqslant x_k \leqslant 1 \ \wedge \ \sum_{k=1}^{K} x_k = 1 \}\]

其 PDF 定义为:
\[Dir(\vec{x}|\vec{\alpha}) = \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K x_k^{ \alpha_k -1 } \mathbb{I}(x \in S_K)\\
where \quad B(\vec{\alpha}) = \frac{\prod_{k=1}^K \Gamma(\alpha_k)}{\Gamma(\sum_{k=0}^K\alpha_k)} \quad a, b > 0\]
\(\alpha_k\): 某元素值的大小 \(\alpha_k\) 决定曲面的峰值离该元素有多近。如果\(\vec{\alpha}\) 中所有元素都小于1,则曲面呈凹形,每个元素的位置都有一个尖端。

\(\sum_{k=0}^K\alpha_k\): \(\vec{\alpha}\) 中所有元素之和越大,则曲面越陡峭;

Intro to Probabilistic Model-LMLPHP
Intro to Probabilistic Model-LMLPHP

上图是5维对称狄利克雷分布的采样样例,左图参数为 \(\vec{\alpha}=(0.1, 0.1, 0.1, 0.1, 0.1)\),分布非常稀松(sparse);右图参数为\(\vec{\alpha}=(1.0, 1.0, 1.0, 1.0, 1.0)\),分布均匀(uniform)且密集(dense)。

数字特征为:
\[
\mu=\frac{\alpha_k}{\alpha_{sum}}\\
\sigma = \frac{\alpha_k(\alpha_{sum}-\alpha_k)}{\alpha_{sum}^2(\alpha_{sum}+1)}
\]

狄利克雷-多项分布模型(Dirichlet-Multinomial Model

某数据集中有 \(n\) 个数据点(data case)\(D=\{x_1, ..., x_n\}\);而 \(x_i\in \{1, ..., K\}\) 表示一次试验(一个数据点)有\(K\)种可能事件,通常使用 one-hot encoding;参数\(\theta\)定义在 Probability Simplex 上。

似然概率(Likelihood)

假设每条数据 iid,则可得到似然概率:
\[
P(D|\theta)=\prod_{k=1}^K \theta_k^{\sum_{i=1}^nx_{ik}}=\prod_{k=1}^K \theta_k^{n_k}
\]
\(n_k\) 表示第 \(k\) 种事件发生的次数。这也是模型的充分统计量(Sufficient Statistics)

先验概率(Prior)

参数 \(\vec\theta\) 可视为 \(K\) 维向量,上面得到的似然概率是 \(K\) 个带指数参数相乘的形式。我们需要一个与似然概率形式相同的共轭先验,而狄利克雷分布的PDF正好满足这一点。因此可以借用狄利克雷分布:
\[
Dir(\vec{\theta}|\vec{\alpha}) = \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ \alpha_k -1 } \mathbb{I}(x \in S_K)
\]

后验概率(Posterior)

后验正比于先验和似然之积:

\[
\begin{align*}\notag
P(\theta|D) &\propto P(\theta)P(D|\theta)\\
&\propto \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ \alpha_k -1 }\theta_k^{n_k}\\
&\propto \frac{1}{B( \vec{\alpha} )} \prod_{k=1}^K \theta_k^{ (\alpha_k+n_k) -1 }\\
&\propto Dir(\vec{\theta}|\vec{\alpha}+\vec n)
\end{align*}
\]

\(\vec n\)是数据集 \(D\) 的充分统计量,\(\vec\alpha\) 相当于 pseudo count

后验预测分布(Posterior Predictive Distribution)

预测下一次试验结果是第 \(k\) 种事件发生的概率:

\begin{align*}\notag
P(x=k|D, \vec \alpha)&=\int_{\vec{\theta}} P(x=k|\vec \theta)P(\vec \theta|D,\vec \alpha) \mathrm{d}\vec \theta \\
&= \frac{\alpha_k+n_k}{\sum_k(\alpha_k+n_k)}
\end{align*}

\(\alpha_k\) 就是该 feature 的 pseudo count。


Written with StackEdit.

05-19 11:06