我有一个短消息数据集,其中包含发件人的姓名,收件人,长度在一个单词和二十个单词之间的短消息,以及分配为垃圾邮件/非垃圾邮件的类。我想根据此历史数据建立一组关联规则。我当时在考虑Apriori算法,但是我不知道如何使短消息离散化以便在数据集上运行该算法。目标是提取导致垃圾邮件/非垃圾邮件分类的规则

最佳答案

朴素贝叶斯(Naive Bayes)/ SVM更适合这种分类。只需将每个单词视为一个功能即可。

08-03 14:39