是否有用于在Spark中构建堆叠集成的Spark API,还是应该从头开始构建它们?我没有在线找到有关此主题的任何资源
最佳答案
如AKSW的评论所述,在当前的Apache Spark MLlib中,只有两种特定的Ensemble模型实现,即用于袋装的Random Forests和用于Boosting的Gradient Boosted Trees。
对于堆栈部分,我认为您不能在MLlib上找到任何东西,您必须通过以下任一方法自行完成:
通过将基础学习者与向量汇编器和最终的堆栈算法相加,创建一个函数来生成将进行堆栈的管道
创建一个将您的基础学习者和堆栈算法作为参数的元估算器
第二个方法很方便,因为它可以作为Tuning Tools与所有MLlib工具一起使用
对于第二个解决方案,我制作了一个包含Boosting,Bagging和Stacking Meta-Estimators的库:spark-ensemble
您可以从中获得一些实现想法!