我正在使用高度不平衡的数据集(一种类别为90%,另一种类别为10%)来处理Weka中的二进制分类问题。我首先将SMOTE(http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html)应用于整个数据集,以使类别均匀,然后对新获得的数据进行10倍交叉验证。我发现(过度?)F1的乐观结果约为90%。
这是由于过采样吗?
对应用了SMOTE的数据执行交叉验证是否是错误的做法?
有什么办法可以解决这个问题?
最佳答案
我认为您应该首先在测试和训练中拆分数据,然后仅在训练部分执行SMOTE,然后在没有综合示例的数据集部分测试算法,这样可以更好地了解算法的性能。
关于machine-learning - SMOTE过采样和交叉验证,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31856326/