我想解析进入我系统的字符串,并在单独的表格中保留每个单词的字数。问题是将包含许多不应该包含的常见词,例如“the”、“at”等。我不想手工创建字典。任何人都知道一个像样的常用词词典,我可以匹配但不包括在内?谢谢。
最佳答案
您特别指的是“停用词”列表。
http://en.wikipedia.org/wiki/Stop_words
你可以在这里找到一个
http://truereader.com/manuals/onix/stopwords1.html
我想解析进入我系统的字符串,并在单独的表格中保留每个单词的字数。问题是将包含许多不应该包含的常见词,例如“the”、“at”等。我不想手工创建字典。任何人都知道一个像样的常用词词典,我可以匹配但不包括在内?谢谢。
最佳答案
您特别指的是“停用词”列表。
http://en.wikipedia.org/wiki/Stop_words
你可以在这里找到一个
http://truereader.com/manuals/onix/stopwords1.html