我必须对不同的数据挖掘算法进行三种不同的比较。
唯一有问题的比较类型是最基本的一种,在一个数据集上有两种算法-对我来说就是有问题的一种。
我知道dietrich(1998)的论文提到mcnemar和5x2cv作为选择和陈述的选项,重新取样t检验是不可行的。由于分析是使用子样本、60:40培训:测试拆分和总成本作为性能度量的更大设置的一部分,所以我不能使用它们。
在这种情况下,还有哪些其他选项可以评估性能?
符号测试:只需计算案例数量,两种算法中的每一种都表现得更好,然后使用二项式分布检查p值。很弱的问题。
wilcoxon符号秩检验:作为非参数t检验的替代品,我想到了第一个,但在任何一篇论文中都没有提到这种比较,只是用几次迭代的平均性能结果比较了两个算法在几个数据集上的性能。这不可行吗?如果可行,为什么?
最佳答案
两者之间的一个明显区别是,wilcoxon符号秩检验要求计算一对中两个成员之间的差,然后对这些差进行秩。如果你对每一对成员的唯一信息是数据挖掘过程是否正确地猜测了其成员的类,那么只有三个可能的有符号秩-1,0,1,Wilcoxon有符号秩检验将等同于McNemar检验这实际上只是一种计算符号检验的近似尾部值的方法。如果比较一对中两个成员的结果是有意义的,但不减去它们并得到一个数字,那么你又回到了符号测试。
这听起来像是一个让你做一些统计测试的练习,但如果这是现实生活中的事情,我的第一个想法是弄清楚为什么你真的关心运行一个数据挖掘练习,也许把它降低到一个货币价值,然后找一个最能代表这一点的测试。