由于该类的文档不是很清楚。我不明白我赋予它什么价值。
cross_val_score(estimator,X,y = None)
这是我的代码:
clf = LinearSVC(random_state=seed, **params)
cvscore = cross_val_score(clf, features, labels)
我不确定这是否正确,或者我是否需要提供X_train和y_train而不是功能和标签。
谢谢
最佳答案
即使使用cross_val_score,也最好将测试集和训练集分开。其背后的原因是知识泄漏。从根本上讲,这意味着当您同时使用训练集和测试集时,会将信息从测试集泄漏到模型中,从而使模型产生偏差,从而导致错误的预测。
这是关于同一问题的详细blog post。
参考文献:
Reddit post on cross-validation
Cross_val_Score example showing correct way of using it
A similar question on stats.stackexchange