我正在使用Rpart {}为分类变量构建决策树,我想知道是否应该仅使用一组唯一行的完整数据集。
最佳答案
我将其作为决策树而不是R实施的一般问题来回答。
决策树的参数通常基于记录数-想到最小的叶子大小和最小的分割搜索大小。此外,构建树时,纯度度量会受节点大小的影响。当您有重复的记录时,然后隐式地对这些行中的值进行加权。
这既不是好事也不是坏事。您只需要了解要构建的数据和模型。如果重复的值来自实验的不同运行,则应该可以。
在某些情况下,重复项(或等效权重)可能非常糟糕。例如,如果您对数据进行过采样以在目标上获得平衡的样本,则其他行将成问题。单个叶子可能最终包含来自原始数据的单个实例-过度拟合将是一个问题。