我正在用Java实现Naive Bayes文本分类算法。
到目前为止,我所做的是声明一个名为Vocabulary的哈希集,该哈希集存储给定文本文件(测试文件)中的所有唯一单词。
算法中的步骤之一是将测试文件的所有成员连接到单个文本文件中。事实证明,这是一个相当大的文件,其中包含每个文件中的文字。
现在,我必须用串联文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种包含每个单词的频率的数组结构。但是话又说回来,我将有太多的条目。
有人可以给我更好的建议吗?
最佳答案
使用字典(HashMap),其中单词是键,值是出现的次数。如果HashSet适合内存,则HashMap也应如此。