watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaHpxMjAwODExMjExMDc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

(图片from http://www.cnblogs.com/zhangchaoyang/articles/2624882.html)

假设x是二维的,那么上述公式为:

GMM高斯混合模型 学习(2)-LMLPHP

GMM高斯混合模型 学习(2)-LMLPHP=cov(x0,x1),是x1和x0的协方差。

单高斯分布

假设特征x是一维(仅仅考虑点的x坐标)的,高斯分布是:(from这篇博客

GMM高斯混合模型 学习(2)-LMLPHP

假设特征是二维(x坐标和y坐标,意义能够是身高和体重)的,聚类的效果应该是:

GMM高斯混合模型 学习(2)-LMLPHP

在上面两张图中。我们用EM—GMM算法做聚类。用的是单个高斯函数描写叙述一个类别(男一个。女一个)。

如用一维高斯描写叙述了男生和女生的身高分布。

高斯混合分布

可是假设统计的这些身高同一时候有荷兰人(高)和刚果人(矮),这个单高斯模型会出什么问题?

GMM高斯混合模型 学习(2)-LMLPHP

显然用一个高斯分布来描写叙述男女身高是不行了,这样就须要混合高斯模型。如:

GMM高斯混合模型 学习(2)-LMLPHP

【π表示各种人(荷兰男人、荷兰女人、刚果男人、刚果女人)所占的比例】

如今有一批男人身高数据(荷兰男人+刚果男人)。我们能够參照这篇博客的EM方法得到

同理。能够得到女人身高的双高斯分布。

这样。用混合双高斯分布来推断 “荷兰美眉” 的性别就对了。【即将“荷兰美眉”的特征向量X带入Gm和Gf求概率】

混合高斯模型GuassMixtureModel

假设这时候中国人、美国人也混入这批身高数据,二维的高斯模型将不足以刻画数据分布,须要考虑使用4高斯混合分布。

当GMM中的高斯分布越多,对数据的刻画将越仔细(当然须要的训练数据就很多其它,计算量也会更大)。

05-26 05:08