hadoop - Spark是否有可能读取HDFS数据并同时进行一些计算？

例如，我在Spark平台上运行以下工作计数应用程序:

val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
             .map(word => (word, 1))
             .reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")

并假设有一个工作人员需要处理1Gb数据，那么该工作人员是否有可能在获取所有1Gb数据之前开始进行一些计算(例如flatMap)？

最佳答案

一般来说，可以，但是您的问题有点广泛。因此，我不知道您是否正在寻找针对特定案例的答案。

有时您需要在不同用户之间共享资源。

通常，一切都取决于您使用的调度程序以及其意图。

Ref. Official documentation > Job Scheduling > Scheduling Within an Application。

所以回到您的特定问题，并假设有一个工作人员需要处理1Gb数据，那么这个工作人员是否有可能在获取所有1Gb数据之前开始进行一些计算(例如flatMap)？

是的。

关于hadoop - Spark是否有可能读取HDFS数据并同时进行一些计算？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/36880832/