我想解析进入我系统的字符串,并在单独的表格中保留每个单词的字数。问题是将包含许多不应该包含的常见词,例如“the”、“at”等。我不想手工创建字典。任何人都知道一个像样的常用词词典,我可以匹配但不包括在内?谢谢。

最佳答案

您特别指的是“停用词”列表。

http://en.wikipedia.org/wiki/Stop_words

你可以在这里找到一个

http://truereader.com/manuals/onix/stopwords1.html

10-08 19:45