使用scikit-learn,我构建了一个支持向量机,用于解决基本的手写数字检测问题。

我的总数据集包含235个观察值。我的观察各包含1025个特征。我知道使用支持向量机的优点之一是在这样的情况下,即适度数量的观测值具有大量特征。

创建我的SVM之后,请看下面的混淆矩阵...

Confusion Matrix:
[[ 6  0]
 [ 0 30]]


...并意识到仅将我的数据的15%用于测试(即36个观测值)是不够的。

我的问题是:如何使用交叉验证解决此小数据问题?

最佳答案

这正是交叉验证(及其概括,如Err ^ 0.632)的目的。保留集仅在具有大量数据的情况下才是合理的。

07-26 09:36
查看更多