我正在研究一个机器学习项目,并且正处于进步的第一阶段。我正在研究提取功能并测试该功能要使用还是不使用。我有一个包含2个类的数据集。我想检查一下在情绪和是否属于其中一个群体之间是否存在关系。我的数据如下所示:

group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet


如何找到情绪和群体之间的关联?因为这是我项目的功能选择部分,所以我可以使用任何工具代替手动实现它。 WEKA,PRTools或其他任何工具,如果可以向我展示如何做,欢迎您。

PS:实际上,在实现算法之前,我想检查一下是否可以得到类似以下内容的东西:

即group_a比group_b更负面

因此,根据我的测试数据,当我得到一个句子时,我可以说,如果它是一个负面情绪句子,则可能与group_a有关

最佳答案

从您的问题出发,我假设您正在尝试将二进制情绪分类为正与负情绪。我建议在Weka中使用C4.5决策树分类器。如果您想了解在C4.5中采用的熵测度如何建模的理论细节,请查看Ch。 Mark Hall's thesis中的4

10-06 06:28