我们将每天扫描我们的航空突刺,并从扫描结果中获取一些信息。
现在,我们正在考虑将扫描更改为减少 map 的工作。但是我发现有些事情可能会使此尝试失败。我还没有找到将扫描作业拆分为多个子任务的任何简单方法。例如,我在一个航空峰值集群中有8个节点,我可以想象的唯一可以为mapper分配数据集的拆分模式是分别使用8个mapper扫描8个节点。我们在一个节点中有4组,当然我可以使用更多的映射器来扫描每组节点,但这将导致每个映射器的数据集不平衡。
那么,我有什么方法可以使用多个进程在一个节点中扫描一个集合?
最佳答案
如果要通过读取记录汇总某些数据,则可能需要考虑Stream UDF。
关于hadoop - 如何将航空扫描扫描作业更改为 map 缩减模式?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45163992/