我正在对网站进行分类。任务之一是过滤色情。我使用的是带有词袋的二进制SVM分类器。我对在BoW中应该包含的单词有疑问:应该只是与色情相关的单词(在色情网站上常见的单词),还是应该包含在色情网站上很少见到但在其他网站上经常发现的单词,例如很好(例如“数学”,“工程学”,“吉他”,“出生”等)?
我遇到的问题是药物和家庭相关网站上的误报。如果我只寻找与色情相关的词,那么此类网站的载体最终将非常稀疏。诸如“性”之类的词经常出现,但完全是无辜的。
我也应该包括非色情字吗?还是我应该考虑其他解决误报的方法?欢迎提出建议。
最佳答案
另一种可能的方法是为色情网站专门创建语言模型。我认为,如果您有n克(例如3克),则应该更容易确定“性别”是否与色情或其他领域有关。
理论上的猜测:如果您有这样的语言模型,则甚至不需要分类器。 (困惑,n-gram的可能性应该足以决定...)