machine-learning - 为什么在决策树中使用交叉熵而不是0/1损失

我知道交叉熵/互信息如何在分类决策中作为损失函数起作用。但我想知道为什么0/1损失不是一个好选择。

最佳答案

在一般机器学习的情况下，很少使用0-1损失的主要原因是0-1损失不是凸损失函数，并且在0时也没有微分。结果证明，求解NP难于NP关于0-1损失的问题。 Here is a source讨论了一些直接优化0-1损失的方法。

交叉熵可以理解为以相同的总体思想（将“成功”归因于候选分类基于该示例为该示例预测正确标签的程度而归于候选分类）的方式，减轻了0-1的损失，但这是凸的。

在标题中提到的决策树的特定上下文中，与此相关的至少两个重要考虑因素。

在普通决策树训练中，用于修改模型参数（决策拆分）的标准是分类纯度的某种度量，例如information gain或gini impurity，这两种度量均表示与标准交叉熵不同的东西。分类问题。实际上，您可以在此处使用0-1损失作为分割标准，这也称为使用误分类率。 Here are some PDF lecture notes在幻灯片19的何处，它们显示了信息获取和基尼杂质的平滑函数的良好图解，而误分类率的非可区分性尖点则与之相反。
在梯度增强树中，您再次需要一个可微分的损失函数，该函数通常在回归树中使用均方误差来讨论，通常将其称为偏差损失或用于分类的“指数”（AdaBoost）损失，但是原则上可以以某种定制的方式使用交叉熵。

对于从凸函数或至少可微分的损失函数中受益匪浅的问题（例如，训练基于神经网络的分类器），使用像交叉熵这样的松弛的好处通常非常巨大，并且在完全优化误差函数方面通常没有太多实用价值。 0-1损失。

对于简单的决策树，您可以使用0-1损失来计算每个建议的拆分的精度指标，因此您不会处理相同的NP硬优化问题，而只是使用0-1损失作为拆分准则，并且仍然仅搜索f -by- d可能的f特征分割数，每个特征均具有d个观测值。

我敢肯定，您可以提出一些挥霍无度的论点，即信息增益或基尼杂质允许对给定特征分割的信息性进行更细微的解释，或者也许以更高的可信度可以说，纯粹优化每个分割的原始分类精度可以导致过度拟合，尤其是贪婪的方法。

但是最后，没有确凿的理由说明，如果您有理由相信这是解决正在研究的给定建模问题的宝贵方法，则不能将0-1损失用作分裂标准。