我正在尝试在非常大的矩阵上进行一些(k均值)聚类。

矩阵大约为500000行x 4000列,但非常稀疏(每行只有几个“1”值)。我想获得2000个集群。

我有两个问题:
-有人可以推荐一个开源平台或工具来做到这一点吗(也许使用k-means,也许还有更好的东西)?
-如何最好地估计算法需要完成的时间?我曾经尝试过一次weka,但是几天后就中止了工作,因为我不知道需要多少时间。

谢谢!

最佳答案

http://lucene.apache.org/mahout/

关于matrix - 在非常大的稀疏矩阵上聚类?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3177827/

10-12 21:55