从文档中:

我不明白为什么需要这种“平衡”的东西。我认为我表面上了解它,但是任何其他见解都将真正有帮助。

最佳答案

这意味着,如果您有一个具有10000行的数据集ds

set.seed(42)
ds <- data.frame(values = runif(10000))

具有2个“类”且分布不均(9000与1000)
ds$class <- c(rep(1, 9000), rep(2, 1000))
ds$class <- as.factor(ds$class)
table(ds$class)
#    1    2
# 9000 1000

您可以创建一个示例,该示例尝试维护factor类的比率/“平衡”。
dpart <- createDataPartition(ds$class, p = 0.1, list = F)
dsDP <- ds[dpart, ]
table(dsDP$class)
#   1   2
# 900 100

关于r - 如何从插入符号包拆分数据的createDataPartition功能?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40709722/

10-12 23:04