我有十亿个特征向量,我想将它们分成近似的簇。例如,从http://scikit-learn.org/stable/modules/clustering.html#clustering中查看方法,对我来说还不清楚它们的运行时间如何随数据大小缩放(“亲和传播”显然太慢了)。

最佳答案

对于十亿个特征向量,我会怀疑自己单独使用K均值。我敢肯定您可以做到,但是这会花费很长时间,因此很难调试。我建议先使用Canopy Clustering,然后再应用K-means来降低复杂性和计算量。然后,可以使用Map Reduce实现进一步减少这些子集群,以更快地解决。

09-12 12:03