我正在尝试预测网球比赛的结果-只是一个有趣的附带项目。我使用随机森林回归器来执行此操作。现在,功能之一是在特定比赛之前球员的排名。对于很多比赛,我没有排名(我只有前200名)。问题是-放置一个非整数值(例如字符串"NoRank"
)还是放置一个超出1-200
范围的整数更好?考虑学习算法,我倾向于将值201
放入,但是我想听听您对此的看法。
谢谢!
最佳答案
不幸的是,scikit-learn随机森林不支持缺失值。如果您认为未排名的玩家表现可能最差,而平均排名为200,则输入201的排名很有意义。
注意:所有scikit-learn模型都需要均质的数字输入功能,而不是字符串标签或其他python对象。如果您具有字符串标签作为特征,则首先需要根据字符串特征的含义找到正确的feature extraction strategy(例如,分类变量标识符或要提取为单词袋的自由文本)。
关于python - scikit学习随机森林的输入,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21376908/