我已将逻辑回归模型拟合到我的数据中。想象一下,我有四个特征:1)确定参与者接收条件的条件; 2)参与者是否对测试的现象有任何先验知识/背景(实验后调查表中的二进制响应); 3)花在实验任务上的时间;以及4)参加者年龄。我试图预测参与者最终选择了选项A还是选项B。我的逻辑回归使用clf.coef_输出以下特征系数:

[[-0.68120795 -0.19073737 -2.50511774  0.14956844]]

如果选项A是我的肯定类,那么此输出是否表示特征3是二进制分类中最重要的功能,并且与选择选项A的参与者有负相关关系(注意:我尚未对数据进行归一化/重新缩放)?我想确保我对系数的理解以及可以从中提取的信息是正确的,因此我在分析中不会做任何概括或错误的假设。

谢谢你的帮助!

最佳答案

您在那儿走对了路。如果一切都非常相似,则在所有条件相同的情况下,更大的正负系数意味着更大的影响。

但是,如果您的数据未进行标准化,则Marat是正确的,因为系数的大小并不表示任何含义(无上下文)。例如,您可以通过将度量单位更改为更大或更小来获得不同的系数。

我看不到这里是否包含非零截距,但是请记住,逻辑回归系数实际上是比值比,您需要将它们转换为概率,以得到更直接可解释的值。

查看此页面以获得良好的解释:
https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

关于python - 解释sklearn中的逻辑回归特征系数值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51006193/

10-12 16:53
查看更多