我正在使用Apche Spark Mllib逻辑回归和线性回归算法。我正在使用文档中提供的代码段。现在,在最新版本的Spark 1.5中使用LogisticRegressionWithSGD和LinearRegression时出现问题。
我用于LogisticRegressionwithSGD的参数值为
步长= 0.01
迭代数= 1000
minBatchFraction = 0.001
具有此值的混淆矩阵是
27821 0
2287 0
对于使用LogisticRegressionWithLBFGS的相同数据,混淆矩阵为
27541 280
1249 1038
我对LogisticRegressionWithSGD的结果一无所知。您能告诉我LogisticRegressionWithSGD无法得到正确结果的原因。
最佳答案
对于LogisticRegressionWithSGD,您需要更改参数,以便获得更高的准确性。
参数的值似乎不适合您的数据。尝试
stepSize = 1.0
numIterations = 1000
miniBatchFraction = 1.0
同样,对于优化LogisticRegressionWithLBFGS结果,似乎对于第二类,您试图预测自己有很多误报。由于结果可能在很大程度上取决于您的数据,因此请问自己数据是平衡的还是有偏差的?数量和质量足以学习模式吗?属性是否经过充分选择和规范化?
关于machine-learning - 调整Apache Spark MLlib算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32962102/