我在Python中使用sklearn包将Random Forest Regression模型拟合为如下所示的数据:
data_train = ['.3 0:.5 1:.2 3:.7 6:.9 7:.1','.2 1:.5 2:.7 4:-0.3 5:1 6:0.7','.1 0:.3 1:.3 2:.2 3:.1 4:-0.2 5:0.3 6:0.7','.5 0:.3 1:.3 2:.5 3:.6 4:-0.1 5:0.4 6:0.6','.4 1:.3 2:.2 3:.2 4:-0.6 5:0.7 6:0.8','.6 0:.8 1:.3 2:.4 3:.4 4:-0.2 5:0.3 6:0.10','.9 0:.3 1:.3 2:.2 3:-.4 4:-0.2 5:-0.3','.9 0:.3 1:.1 2:.1 3:-.4 4:-0.1 5:-0.3','.1 0:.3 1:.3 2:.2 3:-.5 4:-0.2 5:-0.5']
data_test = ['.2 0:.4 1:.65 3:.8 6:.1','.2 1:.3 2:.6 4:-0.2 5:.6 6:0.6','.5 0:.3 1:.3 2:.2 3:.1 4:-0.2 5:0.3 6:0.7','.5 0:.3 1:.3 2:.5 3:.6 4:-0.1 5:0.4 6:0.6','.4 1:.3 2:.2 3:.2 4:-0.6 5:0.7 6:0.8','.6 0:.8 1:.3 2:.4 3:.4 4:-0.2 5:0.3 6:0.10','.9 0:.3 1:.3 2:.2 3:-.4 4:-0.2 5:-0.3','.9 0:.3 1:.1 2:.1 3:-.4 4:-0.1 5:-0.3','.1 0:.3 1:.3 2:.2 3:-.5 4:-0.2 5:-0.5']
对于每一行,第一个变量是输出变量,其他变量是feature:value对。
我使用以下代码为数据创建稀疏矩阵:
def sparse_mat(data):
row1 = []
col1 = []
data1 = []
y = []
for rownum,x in enumerate(data):
x = x.strip()
elems = x.split(' ')
for e,elem in enumerate(elems):
if e == 0:
y.append(float(elem.strip()))
else:
colnum = int(elem.split(':')[0])
value = float(elem.split(':')[1])
row1.append(rownum)
col1.append(colnum)
data1.append(value)
X = csc_matrix((data1, (row1, col1)))
return X,y
X_train,y_train = sparse_mat(data_train)
X_test,y_test = sparse_mat(data_test)
然后,我使用以下代码拟合随机森林回归模型:
from scipy.sparse import csc_matrix,csr_matrix
from sklearn.ensemble import RandomForestRegressor
rf=RandomForestRegressor(n_estimators=50,max_features='sqrt')
rf=rf.fit(X_train,y_train)
但是,然后,我尝试使用以下代码使用训练集中的模型来获取测试集输出变量的预测:
predictions=rf.predict(X_test)
我收到以下错误:
ValueError: Number of features of the model must match the input. Model n_features is 8 and input n_features is 7
我了解到训练集上的特征数量应该与测试集上的特征数量匹配。但是,在现实世界中,当我训练模型来预测结果变量时,我可能不知道样本外测试集中有哪些可用功能。有没有一种方法可以训练具有N个特征的随机森林模型,然后提供具有N-k个特征的测试集并仍然获得预测?
最佳答案
上周我在工作中遇到了同样的问题。我们处理该问题的方法是在测试数据集中创建额外的功能,并用训练数据中的估算值填充该功能。
但是,当您开始进入类变量的虚拟化领域时,您也可能遇到问题。同样,我们使用的方法是将基数较低的值归为一组。如果要从数据库中提取数据,则要使用SQL来实现此解决方案,因为您希望最大程度地减少Python中的数据处理,因此准备使用CASE WHEN
语句。
这个问题没有“正确”的答案。所有这些都取决于您的问题和数据的上下文,但是我仅提供用于解决您所描述的同一问题的某些方法。
关于python - 训练和测试集中不同数量的特征-随机森林sklearn Python,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44631909/