我正在尝试分析显示人们是否感染该疾病的数据。也就是说,响应是二进制的。我应用了逻辑回归。假设log.reg(逻辑回归)的结果是类似的;

ID = c(1,2,3,4)
Test_Data = c(0,1,1,0)
Log.Reg_Output = c(0.01,0.4,0.8,0.49)
result = data.frame(ID,Test_Data,Reg_Output)

result

# 1   | 0 |  0.01
# 2   | 1 |  0.4
# 3   | 1 |  0.8
# 4   | 0 |  0.49


我可以说ID = 3的人会以80%的比例感染该病吗?这是正确的方法吗?如果没有,为什么?我很困惑,任何帮助都会很棒!

第二个问题是,除了四舍五入模型结果0或1之外,我如何计算准确率。因为我认为将0.49舍入为0并不那么有意义。
对于我的示例,基于大于或小于0.5,模型输出将变为0、0、1,0,而不是0.01、0.4、0.8、0.49。准确率将达到75%。还有其他计算方法吗?

谢谢!

最佳答案

我可以说ID = 3的人会以80%的比例感染该病吗?


不清楚“在”的意思。逻辑回归输出的传统/常规解释是模型估计,第3个人将以80%的信心感染该疾病。还不清楚标题中的“替代”是什么意思(问题主体中没有详细说明)。


  除了将模型结果四舍五入外,如何计算准确率。


根据定义的准确性,需要将模型结果四舍五入到0/1。但是,至少在原则上,决策阈值不一定必须为0.5 ...


  因为我认为将0.49舍入为0并不那么有意义。


您认为将0.49舍入为1更有意义吗?因为这是二元分类设置中的唯一替代选择(一个人要么会染上这种疾病,要么不会。)

关于对数丢失度量,在评论中提到:它的作用与准确性完全不同。您可能会发现我的这些相关答案很有帮助:

Loss & accuracy - Are these reasonable learning curves?

How does Keras evaluate the accuracy?(尽管标题错误,但与Keras无关。)

我严重建议您看一下一些逻辑回归教程(实际上有数百本)。强烈推荐的来源是教科书An Introduction to Statistical Learning (with Applications in R),作者可以免费获得...

关于r - 逻辑回归替代解释,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51085440/

10-13 00:02