例如,我在Spark平台上运行以下工作计数应用程序:

val textFile = sc.textFile("hdfs://...")
val counts = textFile.flatMap(line => line.split(" "))
             .map(word => (word, 1))
             .reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")

并假设有一个工作人员需要处理1Gb数据,那么该工作人员是否有可能在获取所有1Gb数据之前开始进行一些计算(例如flatMap)?

最佳答案

一般来说,可以,但是您的问题有点广泛。因此,我不知道您是否正在寻找针对特定案例的答案。



有时您需要在不同用户之间共享资源。



通常,一切都取决于您使用的调度程序以及其意图。

Ref. Official documentation > Job Scheduling > Scheduling Within an Application

  • 所以回到您的特定问题,并假设有一个工作人员需要处理1Gb数据,那么这个工作人员是否有可能在获取所有1Gb数据之前开始进行一些计算(例如flatMap)?

    是的。
  • 关于hadoop - Spark是否有可能读取HDFS数据并同时进行一些计算?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36880832/

    10-12 22:49
    查看更多