我对文本挖掘非常陌生,现在正在挑战自我以进行情感分析。但是在进行情感分析时遇到了一些问题。
用我的语言,一个单词可以有一些不同的含义。像“setan”一样:1)恶魔2)咒骂单词。如何解决情感分析中的这种歧义?
同样对于所有人的信息,我使用的算法是朴素贝叶斯分类器。对于工具,我正在使用RapidMiner。
我需要你的帮助。任何提示都很好。谢谢!

最佳答案

在朴素贝叶斯分类器上训练数据将使模型为您要分类的每个不同类别的每个单词分配一个概率。在您的情况下,由于是情感分析,因此如果您将“积极”和“消极”作为两个类别,则 setan 的可能性为“积极”和“消极”。

请牢记这一点,如果一个单词具有多种含义,既可以说明正面情绪也可以表示负面情绪,那么我要确保确保在数据中同时包含这两种情况,以便在训练模型时使用相应的概率对新的类别进行分类文字分为正面或负面类别。

在您的情况下, setan 的两个含义似乎都具有否定含义,这实际上不是问题。在正例和负例中都出现的诸如“the”,“a”之类的词(通常称为停用词)应删除,因为它们实际上并不属于分类。

在您的情况下,如果您尝试使用它们的含义专门训练模型,则可以参考本文https://pdfs.semanticscholar.org/fc01/b42df3077a512620456d8a2714951eccbd67.pdf

10-08 15:26