我正在寻找在大学计算机网格上为多台计算机发送作品的方法。
目前,它正在运行Condor,还提供Hadoop。
因此,我的问题是,我应该为我的项目尝试与R连接到Hadoop还是与Conder交互?
对于讨论,假设我们正在谈论令人尴尬的并行任务。
ps:我看过CRAN task views中描述的资源。
最佳答案
你们两个都可以。
您可以将HDFS用于数据集,将Condor用于工作计划。使用Condor将执行程序放置在计算机上,并使用HDFS + Hadoop的Map-Reduce功能来处理数据(假设您的问题是map-reduce可映射的)。然后,您将使用最适合该工作的工具:Condor是一个工作计划程序,因此比Hadoop更好地工作。 Hadoop的HDFS和M-R框架是Condor所没有的(但对于在Condor上运行的作业非常有用)。
我个人将看一下HDFS是否可以在作为Condor作业离散运行的作业之间共享数据。尤其是在大学环境中,共享的计算资源不是100%可靠的并且可以随意使用,Condor在这种类型的设置中的 flex 将使工作变得更加容易。