获得垃圾链接数据集的命令如下:

  wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data

scala> val inFile = sc.textFile("./spam.data)

  这行代码的意思是,将spam.data文件中的每行作为一个RDD中的单独元素加载到spark中,并返回一个名为inFile的RDD。

scala> import spark.SparkFiles;

scala> val file = sc.addFile("spam.data")

scala> val inFile sc.textFile(SparkFiles.get("spam.data"))

  这段代码的意思是,让spam.data文件在所有机器上都有备份。

_.toDouble 和 x=>x.toDouble等价

scala> val rawFile = sc.textFile("READEME.md")

sclaa> val words = rawFile.flatMap("line=> line.spilt("))

scala> val wordNumber = words.map(w => (w,1))

scala> val wordCounts = wordNumber.reduceBykey(_+_)

scala> wordCounts.foreach(println)

  这段代码的意思是,读取文件READEME.md,以空格为拆分标志,将文件中的每一行分割为多个单词。对每一个单词进行计数,将单词进行分类合并,计算总的出现次数。将所有单词出现的次数进行打印输出。

05-07 15:08