我正在申请多标签文本分类。
我尝试了不同的机器学习算法。

毫无疑问,带有线性核的SVM可获得最佳效果。

我还尝试对算法Radom Forest进行分类,获得的结果非常糟糕,召回率和精度都非常低。

线性核能更好地响应结果这一事实使我对不同类别的想法是线性可分离的。

是否有任何原因导致“随机森林”结果如此之低?

最佳答案

随机森林的集合在许多域和数据类型中表现良好。它们擅长减少因方差引起的误差,并且如果树保持足够简单,也不会过拟合。

我希望森林能够与具有线性内核的SVM媲美。

SVM将趋于过度拟合,因为它无法从整体中受益。

如果您没有使用某种交叉验证。使用测试/培训方案以最小的方式对看不见的数据进行测量时,我会看到您获得这种类型的结果。

返回并确保性能是根据看不见的数据衡量的,并且更有可能您会看到RF的性能更高。

祝好运。

关于python - 用于多标签分类的随机森林,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31225935/

10-09 00:57