使用scikit-learn,我构建了一个支持向量机,用于解决基本的手写数字检测问题。
我的总数据集包含235个观察值。我的观察各包含1025个特征。我知道使用支持向量机的优点之一是在这样的情况下,即适度数量的观测值具有大量特征。
创建我的SVM之后,请看下面的混淆矩阵...
Confusion Matrix:
[[ 6 0]
[ 0 30]]
...并意识到仅将我的数据的15%用于测试(即36个观测值)是不够的。
我的问题是:如何使用交叉验证解决此小数据问题?
最佳答案
这正是交叉验证(及其概括,如Err ^ 0.632)的目的。保留集仅在具有大量数据的情况下才是合理的。