共轭是贝叶斯理论中的一个概念,一般共轭要说是一个先验分布与似然函数共轭;
那么就从贝叶斯理论中的先验概率,后验概率以及似然函数说起:
在概率论中有一个条件概率公式,有两个变量第一个是A,第二个是B ,A先发生,B后发生,B的发生与否是与A有关系的,那么我们要想根据B的发生情况来计算 A发生的概率就是所谓的后验概率P(A|B)(后验概率是一个条件概率,即在B发生的条件下A发生的概率)计算公式是P(A|B)=P(AB)/P(B),而又有乘法公式P(AB)=P(A)P(B|A),这里的P(A)称为先验概率,它是先发生的,也可以是人为假定的,但是通常是不能通过训练样本直接统计得出的,所以我们的需要利用后验概率来求取先验概率,也就是通常意义上的由果推因。后验概率是在新的样本加入之后得到的,有更多的事实作为参考,进而对先验进行修正。似然函数则是指P(B|A),也是一个条件概率,是指在先验发生的条件下后验发生的可能性,是一种正向推理的过程,通常是模型参数的函数。
即P(A|B)=P(A)P(B|A)/P(B),中P(A)称为先验概率,P(B|A)似然函数,P(A|B)后验概率。
三者的关系:
后验概率正比于先验概率与似然函数的乘积
Posterior probability∝Likelihood×Prior probability
在使用中我们用 p(θ) 表示概率分布函数,用 p(x|θ) 表示观测值 x 的似然函数。
后验概率定义如下:p(θ|x)=p(x|θ)p(θ)/p(x)
下面来谈共轭
现在假设我们有这样几类概率: p(θ)(先验分布),p(θ|x)(后验分布), p(X), p(X|θ) (似然函数)
它们之间的关系可以通过贝叶斯公式进行连接: 后验分布 = 似然函数* 先验分布/ P(X)
之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
为了使得先验分布和后验分布的形式相同,我们定义:如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式,那么就称先验分布与似然函数是共轭的,共轭的结局是让先验与后验具有相同的形式
注意:共轭是指的先验分布和似然函数
两个例子
Beta is the conjugate prior of Binomial.
Dirichlet is the conjugate prior of multinomial.