LogisticRegressionWithSGD

LogisticRegressionWithSGD

我正在使用Apche Spark Mllib逻辑回归和线性回归算法。我正在使用文档中提供的代码段。现在,在最新版本的Spark 1.5中使用LogisticRegressionWithSGD和LinearRegression时出现问题。

我用于LogisticRegressionwithSGD的参数值为


  步长= 0.01
  迭代数= 1000
  minBatchFraction = 0.001


具有此值的混淆矩阵是

27821    0
2287    0


对于使用LogisticRegressionWithLBFGS的相同数据,混淆矩阵为

27541   280
1249   1038


我对LogisticRegressionWithSGD的结果一无所知。您能告诉我LogisticRegressionWithSGD无法得到正确结果的原因。

最佳答案

对于LogisticRegressionWithSGD,您需要更改参数,以便获得更高的准确性。
参数的值似乎不适合您的数据。尝试

  stepSize = 1.0
  numIterations = 1000
  miniBatchFraction = 1.0


同样,对于优化LogisticRegressionWithLBFGS结果,似乎对于第二类,您试图预测自己有很多误报。由于结果可能在很大程度上取决于您的数据,因此请问自己数据是平衡的还是有偏差的?数量和质量足以学习模式吗?属性是否经过充分选择和规范化?

关于machine-learning - 调整Apache Spark MLlib算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32962102/

10-11 00:10