导言
我们在上一篇博客《概率论沉思录:初等抽样论》中介绍了传统的抽样理论。其中,我们导出了几种经典的抽样分布,也即给定关于所观察现象的假设\(H\),数据\(D\)的概率分布\(p(D\mid H)\)。在上一篇博客中提到的伯努利坛子模型中,假设\(H\)即坛子的内容,数据\(D\)即重复抽球所生成的红球和白球序列。但正如我们我们在上一篇博客的末尾所述,几乎所有实际的科学推断问题都处在相反的使用场景:我们已知数据\(D\),希望确定假设\(H\)。更一般地说,已知数据\(D\),如何求概率分布\(p(H_1\mid D), p(H_2\mid D), \cdots\),以指出给定假设\(\{H_1, H_2, \cdots\}\)中哪一个成立?
例如,我们的假设可能是对生成数据的物理机制的各种推断。但是从根本上讲,物理因果关系不是问题的必要组成部分,重要的只是假设和数据之间有某种逻辑关系。我们将这类问题称为假设检验(hypothesis testing)。
1 科学推断的基本原理
首先,我们引入先验概率的概念。除了与当前问题有关的新信息或数据\(D\)之外,我们用\(X\)来表示机器人几乎总是会拥有的其它信息。这至少包括它从离开工厂到收到当前问题为止的所有过去经验。对于机器人来说,所有概率至少要以\(X\)为条件。我们称仅以\(X\)为条件的概率\(P(A\mid X)\)为先验概率(prior probability)。需要注意的是,“先验”一词并不一定意味着时间上更早,这种区别纯粹是逻辑上的。根据定义,除了当前问题的直接数据\(D\)之外的任何其它信息都是“先验信息”。
引入先验概率后,再加上我们在博客《概率论沉思录:定量规则》中提到的乘法规则,我们就可以着手解决假设检验问题了。现做如下命题定义:
- \(X\):先验信息。
- \(H\):待检验的假设。
- \(D\):数据。
根据乘法规则,我们有: