根据我对文本学习的了解,我们希望阻止和删除停用词以减少数据的熵。但是,停用词(例如“ not”)可能会对评论的含义和情感产生巨大影响。例如:
我不喜欢这部电影
变成:
我喜欢这部电影
如果我只在文本中保留停用词,那么我假设它们的意义足够小,没关系,训练我的分类器将花费更长的时间。
我所认为的这两个权衡是正确的,还是在减少不重要的功能而不弄乱文本的情感方面,两者兼有?
最佳答案
是否需要一个全有或全无的决定?如果停用词列表只有几千个单词,那么您可以手工浏览列表,只保留可能信息不足的那些词,以进行情感分析。例如修剪“ the”和“ a”,但保留“ not”。
从停用词列表中删除您认为可能提供有用信息的任何单词,我可能会出错。如果这个词实际上没有用,学习者会发现的。
关于machine-learning - 机器学习/情感分析-是否可以有效,安全地从文本中删除停用词?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35568625/