有没有有效的方法聚类文本文档?我想过 K-Means,但它似乎太耗时了。有人可以为我提供一种有效的方法吗?

最佳答案

如果 K-Means 真的可以完成这项工作,而且看起来很慢,那么为什么不尝试让它更快呢?我使用的方法是 random-pausing

通常情况下,有很大的加速空间,在代码中你不会认为这是一个问题,而不改 rebase 本算法。
Here's an example.

关于performance - 在java中集群数千个文本文档,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4525748/

10-12 17:50