不确定这是不是一个很好的地方来回答这个问题,但我被告知crossvalidated不是。所以,所有这些问题都是关于sklearn的,但是如果你对logistic回归有深入的了解,我也很乐意听到。
1)数据是否必须标准化(平均值0,标准偏差1)?
2)在sklearn中,我如何指定我想要什么样的正则化(l1 vs l2)?注意,这与惩罚不同;惩罚是指分类错误,而不是系数上的五进制。
3)如何同时进行变量选择?也就是说,类似于线性回归套索。
4)在使用正则化时,如何优化c的正则化强度?是有什么内在的东西,还是我必须自己处理?
也许举个例子会很有帮助,但我希望你能对这些问题有所了解。
这是我的起点:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
非常感谢你提前!

最佳答案

1)Logistic回归,不,你不是计算实例之间的距离。
2)可以指定penalty='l1'penalty='l2'参数。请参见LogisticRegression page。二级惩罚是默认的。
3)SCIKIT学习提供了多种明确的特征选择技术,例如使用SelectKBest具有“AA>排序功能”。
4)你要为最优参数做一个chi2
关于所有这些问题的更多细节,我建议浏览一些Grid Search,例如Examplesthis one

09-30 18:09
查看更多