例如,我在Spark平台上运行以下工作计数应用程序:
val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")
并假设有一个工作人员需要处理1Gb数据,那么该工作人员是否有可能在获取所有1Gb数据之前开始进行一些计算(例如flatMap)?
最佳答案
一般来说,可以,但是您的问题有点广泛。因此,我不知道您是否正在寻找针对特定案例的答案。
有时您需要在不同用户之间共享资源。
通常,一切都取决于您使用的调度程序以及其意图。
Ref. Official documentation > Job Scheduling > Scheduling Within an Application。
是的。
关于hadoop - Spark是否有可能读取HDFS数据并同时进行一些计算?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36880832/