我有一个具有不同移动设备功能的数据文件。具有类别数据类型的一列具有1421种不同的值类型。我正在尝试训练逻辑回归模型以及我拥有的其他数据。
我的问题是:上述高基数栏会影响我正在训练的模型吗?如果是,我该如何对该列进行预处理,以使其具有较少的不同值?
最佳答案
您可以计算证据权重(WOE)来转换数字或类别变量。请参考此链接http://www.kdnuggets.com/2016/08/include-high-cardinality-attributes-predictive-model.html以了解WOE。