我有一个用Scala编写的Apache Spark应用程序,它对接收到的输入数据进行一些基本处理。输入数据是来自文本文件的句子。我需要对有购买意愿的商品进行分类。例如,如果句子是:“我在哪里可以买到蓝色的鞋子?”,那么这算作一个。

我可以使用哪个分类器/ ML程序来构建它?一个scala / java工具将是合适的。我是NLP / ML的新手。

任何帮助表示赞赏。

最佳答案

您的应用程序本质上是一个二进制分类问题。因此,您需要:


准备带有标签的数据作为训练数据集:如果每个句子都具有购买意图,则将其标记为1,否则将其标记为0。
特征转换:您需要将自然语言句子转换为数字特征。请参考TF-IDF方法。


对于二进制分类器,您实际上有多种选择,例如,朴素贝叶斯,SVM,决策树等。请检查Spark doc以了解其支持的分类器。

09-11 16:54
查看更多