我目前正在使用 ML-Lib 包(Spark 2.1 版)在 PySpark 中运行逻辑回归。为了理解这些系数并检查它们的统计显着性,我想研究相应的 p 值。

有没有办法使用 ML-Lib 包获得 p 值?

最佳答案

您可以使用 ML 库中的广义线性回归包来接收逻辑回归的 p 值:

from pyspark.ml.regression import GeneralizedLinearRegression
glr = GeneralizedLinearRegression(family="binomial", link="logit", maxIter=10,
regParam=0.0)
model = glr.fit(dataset)
summary = model.summary
print("Coefficient Standard Errors: " + str(summary.coefficientStandardErrors))
print("T Values: " + str(summary.tValues))
print("P Values: " + str(summary.pValues))

你可以在这里找到详细的解释:https://spark.apache.org/docs/2.2.0/ml-classification-regression.html#generalized-linear-regression

请记住数据帧的特征值(以及矩阵可逆性的条件)以接收标准误差(以及 P 值),因为在这种情况下,该包将为您提供错误。

关于apache-spark - 逻辑回归的 PySpark mllib p 值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53194617/

10-12 18:09