scala - 如何在Apache Spark中编码分类功能

我有一组要基于其创建分类模型的数据。每行具有以下形式：

user1,class1,product1
user1,class1,product2
user1,class1,product5
user2,class1,product2
user2,class1,product5
user3,class2,product1

大约有100万用户，2个类别和1M产品。接下来，我想创建稀疏矢量（但MLlib已经支持），然后应用该函数，我必须首先创建密集矢量（带有0）。换句话说，我必须对数据进行二值化处理。最简单（或最优雅）的方式是什么？

鉴于我是MLlib的新手，请问您提供一个具体的例子吗？我正在使用MLlib 1.2。

编辑

我结束了下面的代码，但事实证明它真的很慢...如果我只能使用MLlib 1.2，还有其他想法吗？

val data = test11.map(x=> ((x(0) , x(1)) , x(2))).groupByKey().map(x=> (x._1 , x._2.toArray)).map{x=>
  var lt : Array[Double] = new Array[Double](test12.size)
  val id = x._1._1
  val cl = x._1._2
  val dt = x._2
  var i = -1
  test12.foreach{y => i += 1; lt(i) = if(dt contains y) 1.0 else 0.0}
  val vs = Vectors.dense(lt)
  (id , cl , vs)
}

最佳答案

您可以使用spark.ml的OneHotEncoder。

您首先使用：

OneHotEncoder.categories(rdd, categoricalFields)

其中categoricalField是您的RDD包含分类数据的索引序列。给定一个数据集和作为类别变量的列索引，categories返回一个结构，该结构针对每个字段描述数据集中存在的值。该映射将用作编码方法的输入：

OneHotEncoder.encode(rdd, categories)

它返回向量化的RDD[Array[T]]。

mllib

scala - 如何在Apache Spark中编码分类功能