Closed. This question is opinion-based。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗?更新问题,以便editing this post用事实和引用来回答。
                        
                        3年前关闭。
                                                                                            
                
        
在Python中实现我自己的K均值算法还是在Scikit-Learn之类的Python库中使用预先实现的K均值算法更好?

最佳答案

在回答哪个更好之前,这里快速提醒一下该算法:


“选择”簇数K
启动您的第一个质心
对于每个点,找到最接近的质心
根据距离函数D
当所有点都归于聚类时,计算聚类的重心,该重心成为其新质心
重复步骤3和步骤4,直到收敛


如前所述,该算法取决于各种参数:


簇数
您最初的质心位置
距离函数,用于计算任意点和质心之间的距离
计算每个新簇的重心的功能
收敛指标
...


如果您不熟悉上述任何一种情况,并且希望了解每个参数的作用,建议您在低维数据集上重新实现它。此外,即使已实现的Python库提供了很好的调整可能性,它们也可能不符合您的特定要求。

如果您的目的是快速了解它,那么可以使用现有的实现-scikit-learn是一个不错的选择。

关于python - Python中的K-Means实现,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37751430/

10-14 19:07
查看更多