Weka中的分类器(例如决策树)将如何解释“?” (代表ARFF文件中缺少值)在学习阶段?
Weka是将其替换为一些预定义的值(例如'0'或'false')还是会以某种方式影响训练过程?
最佳答案
除了将缺失值本身视为属性值之外,在J48分类器中,对具有缺失值的属性进行的任何分割都将使用与观察到的非缺失值的频率成比例的权重进行。这在Witten和Frank的教科书《数据挖掘实用机器学习工具和技术》(2005年,第二版,第63页和第191页)中有记录,然后他报告说:
最终,实例的各个部分将分别到达叶节点,并且必须使用渗透到叶的权重来重新组合这些叶节点处的决策。
有关在决策树中处理缺失值的更多信息,例如CART中的代理拆分(与C4.5或其后继J48相反),可以在Classification Trees的Wiki部分上找到;在几篇文章中也讨论了归因的使用。 Handling missing data in trees: surrogate splits or statistical imputation。