我是数据科学的新手,到目前为止,我已经了解到装袋仅能减少高方差,而提高装箱率既能减少方差和偏差,又能提高训练和测试用例的准确性。

我了解两者的功能。就准确性而言,似乎提升总是比装袋更好。如果我错了,请纠正我。

是否有任何参数使基于装袋或装袋的算法优于提升参数-无论是在内存,速度,复杂数据处理还是其他任何参数方面。

最佳答案

套袋有两个特性,可以使它比提包更具吸引力:


它是可并行化的-由于装袋的embarrassingly parallel性质,根据您的CPU内核,您可以将训练过程加快4-8倍。
套袋对噪声(paper)的抵抗力相对较强。现实生活中的数据很少像我们在学习数据科学时使用的玩具数据集那样干净。增强有可能过度适应噪声,而套袋在处理噪声方面相对更好。

10-06 00:49