这是我的问题的一个例子

library(RWeka)
iris <- read.arff("iris.arff")

执行 nfolds 以获得分类器的正确精度。
m<-J48(class~., data=iris)
e<-evaluate_Weka_classifier(m,numFolds = 5)
summary(e)

此处提供的结果是通过使用一部分数据集构建模型并使用另一部分进行测试获得的,因此提供了准确的精度

现在我执行 AdaBoost 来优化分类器的参数
m2 <- AdaBoostM1(class ~. , data = temp ,control = Weka_control(W = list(J48, M = 30)))
summary(m2)

这里提供的结果是通过使用相同的数据集来构建模型和用于评估它的相同数据集获得的,因此准确性不能代表我们使用模型评估的其他实例的实际精度。尽管如此,此过程有助于优化构建的模型。

主要问题是我无法优化构建的模型,同时使用未用于构建模型的数据对其进行测试,或者仅使用nfold验证方法来获得适当的准确性。

最佳答案

我猜你误解了evaluate_Weka_classifier 的功能。在这两种情况下,evaluate_Weka_classifier 仅根据训练数据进行交叉验证。它不会改变模型本身。比较以下代码的混淆矩阵:

m<-J48(Species~., data=iris)
e<-evaluate_Weka_classifier(m,numFolds = 5)
summary(m)
e


m2 <- AdaBoostM1(Species ~. , data = iris ,
       control = Weka_control(W = list(J48, M = 30)))
e2 <- evaluate_Weka_classifier(m2,numFolds = 5)
summary(m2)
e2

在这两种情况下,摘要为您提供基于训练数据的评估,而函数 evaluate_Weka_classifier() 为您提供正确的交叉验证。无论是 J48 还是 AdaBoostM1,模型本身都会根据交叉验证进行更新。

现在关于 AdaBoost 算法本身:事实上,它确实使用某种“加权交叉验证”来获得最终分类器。在下一个构建步骤中,错误分类的项目将获得更大的权重,但评估是对所有观察结果使用相等的权重来完成的。因此,使用交叉验证来优化结果并不真正符合自适应提升算法背后的总体思路。

如果您想要使用训练集和评估集进行真正的交叉验证,您可以执行以下操作:
id <- sample(1:length(iris$Species),length(iris$Species)*0.5)
m3 <- AdaBoostM1(Species ~. , data = iris[id,] ,
      control = Weka_control(W = list(J48, M=5)))

e3 <- evaluate_Weka_classifier(m3,numFolds = 5)
# true crossvalidation
e4 <- evaluate_Weka_classifier(m3,newdata=iris[-id,])

summary(m3)
e3
e4

如果您想要一个基于交叉验证更新的模型,您必须使用不同的算法,例如来自 randomForest 包的 randomForest()。基于交叉验证收集一组最优树。它也可以与 RWeka 包结合使用。

编辑:更正代码以进行真正的交叉验证。使用 subset 参数对 evaluate_Weka_classifier() 也有影响。

关于r - 使用 r 和 weka。如何将元算法与 nfold 评估方法一起使用?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3871473/

10-12 03:10