- 熵:H(p)=−∑xp(x)logp(x)
- 交叉熵:H(p,q)=−∑xp(x)logq(x)
- 相对熵:KL(p∥q)=−∑xp(x)logq(x)p(x)
- 相对熵(relative entropy)也叫 KL 散度(KL divergence);
- 用来度量两分布之间的不相似性(dissimilarity);
通过交叉熵的定义,连接三者:
H(p,q)===−∑xp(x)logq(x)−∑xp(x)logp(x)−∑xp(x)logq(x)p(x)H(p)+KL(p∥q)
1. 简森不等式与 KL散度
KL(p∥q)=−∫p(x)lnq(x)p(x)dx
因为 −lnx 是凸函数,所以满足,凸函数的简森不等式的性质:
f(E)≤E(f)
这里我们令 f(⋅)=−lnx,则其是关于 x 的凸函数,因此:
E(f())≥f(E)⇓−∫p(x)lnq(x)p(x)dx≥−ln∫q(x)dx=0
也即 KL 散度恒大于等于 0;