我正在使用朴素贝叶斯分类器来对客户支持进行情感分析。但不幸的是,我在客户支持域中没有大量带注释的数据集。但是我在同一域中有少量带注释的数据(大约100个正数和100个负数)。我也有亚马逊产品评论数据集。
无论如何,我可以使用mahout实施加权的朴素贝叶斯分类器,以便我可以对少量的客户支持数据给予更多的权重,而对亚马逊产品评论数据给予较小的权重。我猜想对上述加权数据集进行培训将大大提高准确性。请同样帮助我。
最佳答案
一种真正简单的方法是过采样。即,只需多次在培训数据中重复客户支持示例。
尽管这不是一个相同的问题,但通过研究用于类不平衡的方法,您可能会得到一些进一步的想法。特别是过采样(如上所述)和欠采样。