如果我有一个基于样本集的混淆矩阵,如何确定召回率/精度/等指标的统计功效(置信度/间隔)?我知道如何对转换概率本身进行统计功效分析,但如何为召回/精确度做统计功效分析?

最佳答案

找到了答案。它是标准置信区间计算的p +/- Z_score_at_alpha * std_error的略微修改公式。唯一的区别是p(基本上是召回概率)是通过偏移量-> Adjusted_recall =(TP + 2)/(TP + FN + 4)计算的。

通常的想法是,当p为0或1时,标准置信区间方程不起作用。这只是一个软糖因素。

另外,现在的标准错误为sqrt(adjusted_recall(1-adjusted_recall)/(N + 4))。
这就是威尔逊得分间隔-
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

http://www.stat.ucdavis.edu/~kwwong/STA13-SS1-12/Statistics_13_files/lecture05.pdf

https://stats.stackexchange.com/questions/109429/wilsons-adjustment-for-sample-proportion

关于probability - 置信区间/召回率或精度范围,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41068858/

10-17 02:08