我是Scala的新手。为什么“ map ”功能无法序列化?如何使其可序列化?例如,如果我的代码如下所示:

val data = sc.parallelize(List(1,4,3,5,2,3,5))

def myfunc(iter: Iterator[Int]) : Iterator[Int] = {
  val lst = List(("a", 1),("b", 2),("c",3), ("a",2))
  var res = List[Int]()
  while (iter.hasNext) {
    val cur = iter.next
    val a = lst.groupBy(x => x._1).mapValues(_.size)
    //val b= a.map(x => x._2)
    res = res ::: List(cur)
  }
  res.iterator
}

data.mapPartitions(myfunc).collect

如果我取消注释
val b= a.map(x => x._2)

该代码返回一个异常:
org.apache.spark.SparkException: Task not serializable
Caused by: java.io.NotSerializableException: scala.collection.immutable.MapLike$$anon$2
Serialization stack:
    - object not serializable (class: scala.collection.immutable.MapLike$$anon$2, value: Map(1 -> 3))
    - field (class: $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC, name: a, type: interface scala.collection.immutable.Map)

非常感谢你。

最佳答案

这是众所周知的Scala错误:https://issues.scala-lang.org/browse/SI-7005 Map#mapValues无法序列化

我们的Spark应用程序中存在此问题,map(identity)解决了该问题

rdd.groupBy(_.segment).mapValues(v => ...).map(identity)

10-04 17:32