我正在使用 ML Pipeline,例如:

VectorAssembler assembler = new VectorAssembler()
                .setInputCols(columns)
                .setOutputCol("features");
LogisticRegression lr = new LogisticRegression().setLabelCol(targetColumn);
        lr.setMaxIter(10).setRegParam(0.01).setFeaturesCol("features");

Pipeline logisticRegression = new Pipeline();
logisticRegression.setStages(new PipelineStage[] {assembler, lr});
PipelineModel logisticRegressionModel = logisticRegression.fit(learningData);

我想要的是在这个模型上获得像 Precision, Recall, AUC-ROC, F1-SCORE, ACCURACY 这样的标准度量的方法。
我找到了 BinaryClassificationMetrics - 但不确定它是否兼容。RegressionEvaluator 似乎只返回 mse|rmse|r2|mae

那么使用 ML Pipeline 提取 Precision、Recall 等的正确方法是什么?

最佳答案

上面 Ryan 的回答中遗漏了几件事。

我可以确认以下工作(注意:我的用例是多类分类)

val scoredTestSet = model.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").rdd.map(r => (r.getDouble(0), r.getDouble(1)))
val multiModelMetrics = new MulticlassMetrics(predictionAndLabelsRDD)

关于apache-spark - ML 管道和指标 : Precision, 召回、AUC-ROC、F1Score,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40655835/

10-12 21:38