我想以KL散度为指标对数据进行聚类。

在K均值中:


选择集群数。
随机初始化每个聚类的均值。
将每个数据点分配给具有最小距离值的群集c
将每个群集的均值更新为分配给它的数据点的均值。


在欧几里得的情况下,仅通过平均每个向量就很容易更新均值。

但是,如果我想使用KL散度作为指标,如何更新均值?

最佳答案

KL散度聚类可能不是最好的主意,因为KLD缺少metrics的重要属性:对称。这样就很难解释获得的星团。如果您想继续使用KLD,则可以使用KLD平均值的平均值作为距离。

d(x,y) = KLD(x,y)/2 + KLD(y,x)/2

08-25 07:15