在词袋模型中,我知道我们应该在训练之前删除停用词和标点符号。但是在RNN模型中,如果我想进行文本分类,是否也应该删除停用词?

最佳答案

这取决于您的模型分类。如果您正在做一些以停用词为辅助的分类(例如,对语法有一定程度的理解),则您需要保留停用词或更改停用列表,以免丢失该信息。例如,删去所有存在的动词(是,应该,应该...)会弄乱一个在某种程度上取决于句子结构的NN。

但是,如果您的分类是基于主题的(如您的词汇袋参考所建议),则以相同的方式对待输入:删除那些讨厌的停用词,以免浪费宝贵的训练时间。

08-24 14:32