我正在使用Spark 2.0和新的spark.ml。包。
有没有一种方法可以调整分类阈值,以便减少误报的数量。
如果重要的话,我也在使用CrossValidator。
我看到RandomForestClassifier和DecisionTreeClassifier都输出一个概率列(我可以手动使用,但是GBTClassifier不能。
最佳答案
听起来您可能正在寻找 thresholds
参数:
您将需要通过在分类器上调用setThresholds(value: Array[Double])
进行设置。
关于apache-spark - 如何使用Spark决策树调整分类阈值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39359631/