apache-spark - 如何准备mllib中的训练数据

TL; DR;
如何使用mllib训练我的Wiki数据(文本和类别)以针对推文进行预测？

我很难弄清楚如何转换我的标记化Wiki数据，以便可以通过NaiveBayes或LogisticRegression对其进行训练。我的目标是使用经过训练的模型与推文进行比较*。我试过将LR和HashingTF与IDF一起用于NaiveBayes的管道，但我一直得到错误的预测。这是我尝试过的:

*请注意，我想在Wiki数据中使用很多类别作为标签...我只看到了二进制分类(这是一个类别或另一个类别)....可以做我想做的吗？

带LR的管道

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.ml.feature.RegexTokenizer

case class WikiData(category: String, text: String)
case class LabeledData(category: String, text: String, label: Double)

val wikiData = sc.parallelize(List(WikiData("Spark", "this is about spark"), WikiData("Hadoop","then there is hadoop")))

val categoryMap = wikiData.map(x=>x.category).distinct.zipWithIndex.mapValues(x=>x.toDouble/1000).collectAsMap

val labeledData = wikiData.map(x=>LabeledData(x.category, x.text, categoryMap.get(x.category).getOrElse(0.0))).toDF

val tokenizer = new RegexTokenizer()
  .setInputCol("text")
  .setOutputCol("words")
  .setPattern("/W+")
val hashingTF = new HashingTF()
  .setNumFeatures(1000)
  .setInputCol(tokenizer.getOutputCol)
  .setOutputCol("features")
val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.01)
val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, lr))

val model = pipeline.fit(labeledData)

model.transform(labeledData).show

朴素贝叶斯

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documentsAsWordSequenceAlready)

import org.apache.spark.mllib.feature.IDF

tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

tf.cache()
val idf = new IDF(minDocFreq = 2).fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

//to create tfidfLabeled (below) I ran a map set the labels...but again it seems to have to be 1.0 or 0.0?

NaiveBayes.train(tfidfLabeled)
  .predict(hashingTF.transform(tweet))
  .collect

最佳答案

ML LogisticRegression目前尚不支持多项式分类，但MLLib NaiveBayes和LogisticRegressionWithLBFGS均支持。在第一种情况下，默认情况下应该可以运行:

import org.apache.spark.mllib.classification.NaiveBayes

val nbModel = new NaiveBayes()
  .setModelType("multinomial") // This is default value
  .run(train)

但是对于逻辑回归，您应该提供许多类:

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS

val model = new LogisticRegressionWithLBFGS()
  .setNumClasses(n) // Set number of classes
  .run(trainingData)

关于预处理步骤，这是一个相当广泛的主题，如果不访问数据就很难为您提供有意义的建议，因此您在下面找到的所有内容都只是一个疯狂的猜测:

据我所知，您使用Wiki数据进行培训，并使用tweet进行测试。如果是这样，那通常说来是个坏主意。您可以期望这两个词集使用的词汇，语法和拼写有明显不同

简单的正则表达式 token 生成器可以在标准化文本上很好地执行，但是根据我的经验，它在诸如tweets

之类的非正式文本上效果不佳

HashingTF是获取基线模型的好方法，但是它是极其简化的方法，尤其是在您不应用任何过滤步骤的情况下。如果决定使用它，则至少应增加功能数量或使用默认值(2 ^ 20)

EDIT (使用IDF为朴素贝叶斯准备数据)

使用ML Pipelines的

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.ml.feature.IDF
import org.apache.spark.sql.Row

val tokenizer = ???

val hashingTF = new HashingTF()
  .setNumFeatures(1000)
  .setInputCol(tokenizer.getOutputCol)
  .setOutputCol("rawFeatures")

val idf = new IDF()
  .setInputCol(hashingTF.getOutputCol)
  .setOutputCol("features")

val pipeline = new Pipeline().setStages(Array(tokenizer, hashingTF, idf))
val model = pipeline.fit(labeledData)

model
 .transform(labeledData)
 .select($"label", $"features")
 .map{case Row(label: Double, features: Vector) => LabeledPoint(label, features)}

使用MLlib转换器的

import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.feature.{IDF, IDFModel}

val labeledData = wikiData.map(x =>
  LabeledData(x.category, x.text, categoryMap.get(x.category).getOrElse(0.0)))

val p = "\\W+".r
val raw = labeledData.map{
    case LabeledData(_, text, label) => (label, p.split(text))}

val hashingTF: org.apache.spark.mllib.feature.HashingTF = new HashingTF(1000)
val tf = raw.map{case (label, text) => (label, hashingTF.transform(text))}

val idf: org.apache.spark.mllib.feature.IDFModel = new IDF().fit(tf.map(_._2))
tf.map{
  case (label, rawFeatures) => LabeledPoint(label, idf.transform(rawFeatures))}

注意:由于转换器需要JVM访问，因此MLlib版本在PySpark中不起作用。如果您喜欢Python，则必须split data transform and zip。

EDIT (为ML算法准备数据):

乍一看下面的代码是有效的

val categoryMap = wikiData
  .map(x=>x.category)
  .distinct
  .zipWithIndex
  .mapValues(x=>x.toDouble/1000)
  .collectAsMap

val labeledData = wikiData.map(x=>LabeledData(
    x.category, x.text, categoryMap.get(x.category).getOrElse(0.0))).toDF

不会为ML算法生成有效的标签。

首先，ML期望标签位于(0.0，1.0，...，n.0)中，其中n是类数。如果您的示例管道其中一个类的标签为0.001，您将得到如下错误:

显而易见的解决方案是在生成映射时避免划分

.mapValues(x=>x.toDouble)

虽然它适用于LogisticRegression，但其他ML算法仍将失败。例如，使用RandomForestClassifier，您将获得

与RandomForestClassifier对应版本不同，它有趣的ML版本的MLlib没有提供设置多个类的方法。事实证明，它希望在DataFrame列上设置特殊属性。最简单的方法是使用错误消息中提到的StringIndexer:

import org.apache.spark.ml.feature.StringIndexer

val indexer = new StringIndexer()
  .setInputCol("category")
  .setOutputCol("label")

val pipeline = new Pipeline()
  .setStages(Array(indexer, tokenizer, hashingTF, idf, lr))

val model = pipeline.fit(wikiData.toDF)

关于apache-spark - 如何准备mllib中的训练数据，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/32672540/