谁能解释一下这两个陈述:
在成本复杂度修剪中,修剪后的树错误永远不会小于训练数据集上的原始树。
在成本复杂度修剪中,修剪后的树错误永远不会小于验证数据集上的原始树。
第一个陈述是正确的,而第二个陈述是错误的。
最佳答案
这适用于您选择的任何修剪策略,前提是构建原始树以最小化训练集中的错误。
原来的树尽量具体,通过用叶子节点替换子树,只能得到不那么具体的树。所以训练数据中的误差要么保持不变,要么增加,永远不会减少。
我们假设验证集是未知的并且独立于训练数据集。因此,作为一般规则,您不能做出任何此类假设。修剪时,验证数据集上的错误可能会增加、保持不变或减少。
然而,我们预计错误会减少,因为树对训练数据的特定性会降低,因此更有可能与不同的数据集兼容。
关于machine-learning - 成本复杂度修剪 : Pruned error,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49159179/