香港专业教育学院遇到了一个问题,使用朴素贝叶斯在文档分类到各种类的问题。

实际上,我想知道P(C)或我们最初掌握的课程的先验概率会随着时间的推移而不断变化。
例如,对于课程-[音乐,体育,新闻],初始概率为[.25,.25,.50]

现在假设在某个月的时间里,如果我们
体育相关文件(例如80%的体育运动),那么我们的NaiveBayes将会失败,因为它将基于先验概率因子,即只有25%是体育运动。
我们如何处理这种情况?

最佳答案

如果您知道先验条件发生了变化,则应该定期进行调整(通过收集可代表新先验条件的新训练集)。通常,如果先验条件发生变化,则每种ML方法的准确性都会失败,并且您不会将此信息提供给分类器。您至少需要分类器的某种反馈。然后,例如,如果您有一个闭环,则可以在分类正确与否的情况下获取信息,并假设仅优先级发生更改-您可以简单地在线学习更改优先级(通过任何优化,因为很容易适应新的先验)。

通常,您应该查看概念漂移现象。

关于python - 文本数据集上的多类NaiveBayes分类具有变化的先验概率,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34122417/

10-12 22:09