用Weka的C4.5(J48)决策树处理缺失要素属性值的最佳方法是什么?在训练和分类过程中都会出现缺少值的问题。

  • 如果训练实例中缺少值,那么我假设放置了“?”是否正确?功能的值(value)?
  • 假设我能够成功构建决策树,然后从Weka的树结构中以C++或Java创建自己的树代码。在分类期间,如果我尝试对新实例进行分类,对于缺少值的要素,我应该赋予什么值?我如何将树下降经过一个值未知的决策节点?

  • 使用朴素贝叶斯会更好地处理缺失值吗?我只是给他们分配一个非常小的非零概率,对吧?

    最佳答案

    华盛顿大学佩德罗·多明戈斯(Pedro Domingos)的ML类(class):

    以下是Pedro建议的A缺失值的三种方法:

  • 除排序到节点A的其他示异常(exception),分配n的最常见值
  • 在其他示例中为目标值
  • 分配最常见的A
  • p_i的每个可能值v_i分配概率A;将示例的分数p_i分配给树中的每个后代。

  • 现在可以在here上查看幻灯片和视频。

    关于machine-learning - 如何处理C4.5(J48)决策树中缺少的属性值?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13425722/

    10-12 21:32