我正在做一个项目,根据 tutorial 检测垃圾邮件帐户。两个标签——“垃圾邮件”和“非垃圾邮件”用于训练和测试。分类已经完成,我要去评估了。

结果是:

*Spam* precision: 0.962917933131
*Spam* recall: 0.6336

*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756

我已经阅读了precision和recall的wiki,仍然很困惑,不知道如何使用它进行测量。

我的目的是减少标记为 "Spam" 普通 帐户的数量。一些“垃圾邮件”帐户可以逃脱并不重要。所以我想知道我应该重点改进上面的哪个结果?谢谢。

最佳答案

精度是归类为正的结果的分数,这些结果确实是正的。

召回率是检测到的所有阳性结果的比例。



这意味着您希望最大限度地提高垃圾邮件的精确度和非垃圾邮件的召回率。您链接到的 wiki 页面解释了您需要知道的所有内容 - 事实上,您的目的是最大限度地减少“误报”的数量(这包括在这两个特征中)。

建议的关键词: Confusion Matrix

关于machine-learning - 垃圾邮件检测中精度和召回率的混淆,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16051721/

10-12 19:29