我想使用 pmml 库导出 Caret 随机森林模型,以便我可以将它用于 Java 中的预测。
这是我得到的错误的再现。

data(iris)
require(caret)
require(pmml)
rfGrid2 <- expand.grid(.mtry = c(1,2))
fitControl2 <- trainControl(
  method = "repeatedcv",
  number = NUMBER_OF_CV,
  repeats = REPEATES)

model.Test <- train(Species ~ .,
  data = iris,
  method ="rf",
  trControl = fitControl2,
  ntree = NUMBER_OF_TREES,
  importance = TRUE,
  tuneGrid = rfGrid2)

print(model.Test)
pmml(model.Test)

Error in UseMethod("pmml") :
  no applicable method for 'pmml' applied to an object of class "c('train', 'train.formula')"

我在谷歌上搜索了一段时间,发现实际上几乎没有关于导出到 PMML 的信息,通常 pmml 库在以下位置具有随机森林:
methods(pmml)
 [1] pmml.ada          pmml.coxph        pmml.cv.glmnet    pmml.glm          pmml.hclust       pmml.itemsets     pmml.kmeans
 [8] pmml.ksvm         pmml.lm           pmml.multinom     pmml.naiveBayes   pmml.nnet         pmml.randomForest pmml.rfsrc
[15] pmml.rpart        pmml.rules        pmml.svm

它使用直接随机森林模型工作,但不是插入符号训练的模型。
library(randomForest)
iris.rf <- randomForest(Species ~ ., data=iris, ntree=20)
# Convert to pmml
pmml(iris.rf)
# this works!!!
str(iris.rf)

List of 19
 $ call           : language randomForest(formula = Species ~ ., data = iris, ntree = 20)
 $ type           : chr "classification"
 $ predicted      : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
...

str(model.Test)
List of 22
 $ method      : chr "rf"
 $ modelInfo   :List of 14
  ..$ label     : chr "Random Forest"
  ..$ library   : chr "randomForest"
  ..$ loop      : NULL
  ..$ type      : chr [1:2] "Classification" "Regression"
...

最佳答案

您不能使用 pmmltrain 类型(即,这是您的 train.formula 对象的类型)调用 model.Test 方法。
train 方法的 Caret 文档说您可以访问最佳模型作为 finalModel 字段。然后您可以在该对象上调用 pmml 方法。

rf = model.Test$finalModel
pmml(rf)

不幸的是,事实证明 Caret 使用“矩阵接口(interface)”(即通过设置 xy 字段)指定 RF 模型,而不是使用更常见的“公式接口(interface)”(即通过设置 formula 字段)。 AFAIK,“pmml”包不支持导出此类 RF 模型。

因此,看起来您最好的选择是使用两级方法。首先,使用 Caret 包为您的数据集找到最合适的 RF 参数化。其次,使用具有此参数化的“公式接口(interface)”手动训练最终的 RF 模型。

关于r - Caret Model 随机森林转化为 PMML 错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27428748/

10-12 22:38