DAG中的ExternalRDDScan是什么意思?

整个互联网都没有解释。

apache-spark - DAG中的ExternalRDDScan是什么?-LMLPHP

最佳答案

基于sourceExternalRDDScan表示将任意对象的现有RDD转换为InternalRow的数据集,即创建DataFrame。让我们验证我们的理解是正确的:

scala> import spark.implicits._
import spark.implicits._

scala> val rdd = sc.parallelize(Array(1, 2, 3, 4, 5))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:26

scala> rdd.toDF().explain()
== Physical Plan ==
*(1) SerializeFromObject [input[0, int, false] AS value#2]
+- Scan ExternalRDDScan[obj#1]

07-24 09:54