我正在参加 Titanic Kaggle 比赛,为了处理分类数据,我将数据分为两组:一组用于数值变量,另一组用于分类变量。
在使用带有分类变量的集合上使用 sklearn 一个热编码后,我尝试重新组合两个数据集,但由于分类集是一个 ndarray 而另一个是我使用的数据帧:
np.hstack((X_train_num, X_train_cat))
这工作完美,但我不再有我的变量的名称。
有没有另一种方法可以在不使用 pd.get_dummies() 的情况下维护变量的名称?
谢谢
最佳答案
尝试
X_train = X_train_num.join(
pd.DataFrame(X_train_cat, X_train_num.index).add_prefix('cat_')
)
关于python - 如何在一个热编码sklearn后保留列的名称?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50414823/