导言

我们在上一篇博客《概率论沉思录：初等抽样论》中介绍了传统的抽样理论。其中，我们导出了几种经典的抽样分布，也即给定关于所观察现象的假设\(H\)，数据\(D\)的概率分布\(p(D\mid H)\)。在上一篇博客中提到的伯努利坛子模型中，假设\(H\)即坛子的内容，数据\(D\)即重复抽球所生成的红球和白球序列。但正如我们我们在上一篇博客的末尾所述，几乎所有实际的科学推断问题都处在相反的使用场景：我们已知数据\(D\)，希望确定假设\(H\)。更一般地说，已知数据\(D\)，如何求概率分布\(p(H_1\mid D), p(H_2\mid D), \cdots\)，以指出给定假设\(\{H_1, H_2, \cdots\}\)中哪一个成立？

例如，我们的假设可能是对生成数据的物理机制的各种推断。但是从根本上讲，物理因果关系不是问题的必要组成部分，重要的只是假设和数据之间有某种逻辑关系。我们将这类问题称为假设检验（hypothesis testing）。

1 科学推断的基本原理

首先，我们引入先验概率的概念。除了与当前问题有关的新信息或数据\(D\)之外，我们用\(X\)来表示机器人几乎总是会拥有的其它信息。这至少包括它从离开工厂到收到当前问题为止的所有过去经验。对于机器人来说，所有概率至少要以\(X\)为条件。我们称仅以\(X\)为条件的概率\(P(A\mid X)\)为先验概率（prior probability）。需要注意的是，“先验”一词并不一定意味着时间上更早，这种区别纯粹是逻辑上的。根据定义，除了当前问题的直接数据\(D\)之外的任何其它信息都是“先验信息”。

引入先验概率后，再加上我们在博客《概率论沉思录：定量规则》中提到的乘法规则，我们就可以着手解决假设检验问题了。现做如下命题定义：

\(X\)：先验信息。
\(H\)：待检验的假设。
\(D\)：数据。

根据乘法规则，我们有：

\[P(DH\mid X) = P(D\mid HX)P(H\mid X) = P(H\mid DX)P(D\mid X)\]

orion-orion

概率论沉思录：初等假设检验

导言

1 科学推断的基本原理