我正在运行mapreduce作业,该作业需要大约300mb的第三方库。为了避免在运行作业时将库复制到数据节点的开销。我想知道是否有一种方法/工具可以在作业开始之前将这些库预先部署到所有数据节点。
提前致谢。
最佳答案
您可以将其部署到Hadoop的分布式缓存。 Pere Ferrera Bertran explains this well
关于hadoop - 如何将作业所需的库部署到所有数据节点?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11010389/