我正在搜索此错误,但未找到与TrainValidationSplit相关的任何内容。因此,我想进行参数调整,并使用TrainValidationSplit给出以下错误:org.apache.spark.SparkException: Unseen label

我知道为什么会发生这种情况,增加trainRatio可以缓解问题,但不能完全解决问题。
因此,这是(部分)代码:

stages = []
for categoricalCol in categoricalCols:
    stringIndexer = StringIndexer(inputCol=categoricalCol, outputCol=categoricalCol+"Index")
    stages += [stringIndexer]

assemblerInputs = [x+"Index" for x in categoricalCols] + numericCols
assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features")
stages += [assembler]

labelIndexer = StringIndexer(inputCol='label', outputCol='indexedLabel')
stages += [labelIndexer]

dt = DecisionTreeClassifier(labelCol="indexedLabel", featuresCol="features")
stages += [dt]

evaluator = MulticlassClassificationEvaluator(labelCol='indexedLabel', predictionCol='prediction', metricName='f1')

paramGrid = (ParamGridBuilder()
             .addGrid(dt.maxDepth, [1,2,6])
             .addGrid(dt.maxBins, [20,40])
             .build())

pipeline = Pipeline(stages=stages)

trainValidationSplit = TrainValidationSplit(estimator=pipeline, estimatorParamMaps=paramGrid, evaluator=evaluator, trainRatio=0.95)

model = trainValidationSplit.fit(train_dataset)
train_dataset= model.transform(train_dataset)


我已经看过这个answer了,但是我不确定它是否也适用于我的案子,我想知道是否有更合适的解决方案。
请帮忙?

最佳答案

Unseen label异常通常与StringIndexer关联。

您将数据分为训练(95%)和验证(5%)数据集。我认为在训练数据中有一些类别值(在categoricalCol列中),但没有出现在验证集中。

因此,在验证过程的字符串索引阶段,StringIndexer会看到一个看不见的标签并引发该异常。通过增加训练比例,可以增加训练集中类别值是验证集中类别值的超集的机会,但这只是一种解决方法,因为无法保证。

一个可能的解决方案:fit StringIndexer首先是train_dataset,然后将生成的StringIndexerModel添加到管道阶段。这样,StringIndexer将看到所有可能的类别值。

for categoricalCol in categoricalCols:
    stringIndexer = StringIndexer(inputCol=categoricalCol, outputCol=categoricalCol+"Index")
    strIndexModel = stringIndexer.fit(train_dataset)
    stages += [strIndexModel]

关于python - org.apache.spark.SparkException:带有TrainValidationSplit的不可见标签,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43662786/

10-12 21:14