在我的项目中,我曾使用k均值对组之间的数据进行分类,但是我对Scikit-learn的k均值的计算存在问题-速度非常慢。我需要加强它。

我试图将 n_jobs 的数量更改为-1,但是仍然很慢!

有什么建议如何加快?

最佳答案

scikit-learn 中的主要解决方案是切换到mini-batch kmeans,这大大减少了计算资源。在某种程度上,它是SGD(随机梯度下降)与GD(梯度下降)的相似方法,用于优化非线性函数-SGD通常更快(就收敛到局部解所需的计算周期而言)。请注意,这为优化带来了更多差异,因此结果可能更难以重现(优化将以“全批” kmeans的形式更多地出现在不同的解决方案中)。

10-02 01:23