目前,我已经在Hadoop中实现了,这是Google的用于构建决策树的框架(也称为PLANET)。它以单个顶点开始,并且使用贴图减少作业,您将添加越来越多,直到树完全构建为止。但是,一个主要问题是许多 map /缩小作业接连运行,因此一直以来启动新作业的成本非常高。
我已经多次看到Apache Hama适用于图形之类的迭代算法。有人可以使用Hama构建新图,还是您只需要输入图并对其进行一些计算?将我的项目转移到Hama会容易吗?谢谢
最佳答案
Hama确实能够使用PLANET论文中描述的算法构造决策树,并且比MapReduce效率更高。
Hama不需要图作为输入,您可以看一下Hama ML(机器学习)模块,该模块通常将原始特征 vector 作为直接从HDFS输入的内容进行处理。
对于Hama,我创建了一个new issue in the Apache Jira来跟踪此算法的进度。