我正在用Java实现Naive Bayes文本分类算法。

到目前为止,我所做的是声明一个名为Vocabulary的哈希集,该哈希集存储给定文本文件(测试文件)中的所有唯一单词。

算法中的步骤之一是将测试文件的所有成员连接到单个文本文件中。事实证明,这是一个相当大的文件,其中包含每个文件中的文字。

现在,我必须用串联文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种包含每个单词的频率的数组结构。但是话又说回来,我将有太多的条目。

有人可以给我更好的建议吗?

最佳答案

使用字典(HashMap),其中单词是键,值是出现的次数。如果HashSet适合内存,则HashMap也应如此。

10-07 20:03
查看更多