我正在尝试比较从逻辑回归和CART模型获得的ROC曲线。我发现逻辑回归的ROC曲线非常平滑。这是有道理的,因为阈值范围在[0,1]之间是连续的。我想了解为什么CART模型的ROC曲线不平滑。在此先感谢您的帮助。

最佳答案

原因很简单-决策树中的阈值很清晰,因为这通常是叶子中类的有效比率。如果您有N个训练点,则叶子只能具有N种不同的可能比率,因此(最多)仅移动此一个阈值即可获得N种可能的分类。您可以通过以下方式进行处理,最后,当每个点落到某个叶子上时,对每个点进行分类。在此叶子中,您有K个正样本和M个负样本。您可以根据K /(M + K)>阈值分类为阳性。 K /(M + K)可以取多少个不同的值?您的树可以有几片叶子?最后,这些数字不是那么大(它们远小于N),因此大多数阈值只是什么都没有改变。更直观地讲-决策树将您的输入空间分成大块。一旦翻转单个阈值(叶),很大的一块就会改变类别(颜色),从而在ROC曲线中产生较大的跳跃。

对于逻辑回归,您(几乎)总是有所有可能,因为一旦您训练了w,每个测试/训练点将具有不同的投影(假设它们来自某个连续分布),因此当您移动阈值时在这里(1 ./(1 + exp( + b))>阈值),您可以获得N + 1个可能的标签,因为如果可视化w上的投影点,它将看起来像:

* *            * * * *    *    *       *      *  *       * *
--------------------------------------------------------------->
<w, x>


然后根据阈值的选择,将从-inf到threshold的所有类别归为一类,然后再分类为另一类(因此创建N + 1个可能的标签),这将为您提供平滑的ROC曲线。

关于r - 为什么我们在CART模型中无法获得平滑的ROC曲线,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40385478/

10-11 07:23