我有一个要转换为Spark RDD的元组列表(字符串,字符串,整数, double )。
通常,如何将Scala Iterable [(a1,a2,a3,...,an)]转换为Spark RDD?
最佳答案
有几种方法可以做到这一点,但是最直接的方法就是使用Spark Context:
import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._
sc.parallelize(YourIterable.toList)
我认为sc.Parallelize需要转换为List,但是它将保留您的结构,因此您仍然会得到RDD [String,String,Int,Double]