我是机器学习的新手,目前正在处理具有很多id列的数据集。

我大约有十列ID,这些ID代表类别,例如:一个地区为1248885,另一个地区为4929994,等等。这些都是数字变量,但这只是参考...

我的问题是:我应该对这些ID进行缩放(标准化),还是因为它们仅仅是ID而没有意义?还是应该将它们视为分类变量?

我无法删除它们,因为我的数据集几乎只包含ID。

非常感谢。

最佳答案

这些是分类的,因此您不会对其进行标准化或标准化。您只能使用数值来做到这一点。如果ID过多,则也不宜对其进行热编码。您必须询问这些ID是否与您的预测问题相关,这些ID是否是在您的数据集中定义某些内容的特征,等等。希望这对您有所帮助!

关于pandas - 机器学习中的Scale ID列?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55505163/

10-12 16:32
查看更多