回到一个关于数据挖掘的问题,和weka和wekasharp一起研究数据挖掘。通过WekaSharp,我对一个相当大的数据集做了一些分析,这个数据集是KDD Cup 1999的10%数据库(大约70mb)我用决策树j48算法和朴素bayes算法都取得了很好的效果,每个算法都需要10到30分钟才能完成。当我通过knn算法运行相同的数据时,它永远不会完成分析,它不会出错,它只是永远运行。我试过所有不同的参数都没有效果。当我在较小的样本数据集(如iris.arff)上运行相同的knn算法时,它很容易完成。下面是我对knn参数的设置:
“-k 1-w 0-a\”weka.core.neighboursearch.kdtree-a\”weka.core.euclidendistance-r first last\“\”“
KNN和大型数据集是否存在固有问题,或者是否存在设置问题非常感谢你。
最佳答案
knn受到了“维数诅咒”:高维数据集的空间查询不能像低维数据集那样得到有效的优化,从而将它们有效地转化为强力搜索。
nb嘲笑维度,因为它基本上忽略了维度。许多决策树变体也相当擅长处理高维数据。knn不喜欢高维数据。期待等待很长时间。