我有一个目录,其中有 1000 个 txt.files。我想知道每个单词在 1000 个文档中出现了多少次。因此,即使“牛”这个词在 X 中出现了 100 次,它仍然会被算作一次。如果它出现在不同的文档中,则加一。因此,如果每个文档中都出现“cow”,则最大值为 1000。如何在不使用任何其他外部库的情况下以简单的方式做到这一点。这是我到目前为止所拥有的

     private Hashtable<String, Integer> getAllWordCount()
     private Hashtable<String, Integer> getAllWordCount()
    {
        Hashtable<String, Integer> result = new Hashtable<String, Integer>();
        HashSet<String> words = new HashSet<String>();
        try {
            for (int j = 0; j < fileDirectory.length; j++){
                File theDirectory = new File(fileDirectory[j]);
                File[] children = theDirectory.listFiles();

                for (int i = 0; i < children.length; i++){
                    Scanner scanner = new Scanner(new FileReader(children[i]));

                    while (scanner.hasNext()){
String text = scanner.next().replaceAll("[^A-Za-z0-9]", "");
                        if (words.contains(text) == false){
                            if (result.get(text) == null)
                                result.put(text, 1);
                            else
                                result.put(text, result.get(text) + 1);
                            words.add(text);
                        }
                    }
                }
                words.clear();
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        System.out.println(result.size());
        return result;
    }

最佳答案

您还需要一个 HashSet<String>,您可以在其中存储从当前文件中读取的每个唯一单词。

然后在读取每个单词后,您应该检查它是否在集合中,如果不在,则增加 result 映射中的相应值(如果它为空,则添加一个新条目,就像您已经做的那样)并将单词添加到集。

不过,不要忘记在开始读取新文件时重置设置。

关于java - 文档中的字数频率,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5253959/

10-11 03:35