我在将变量存储在arrayList中时遇到一些问题。该程序的建议是从一个文件(A)中读取文件,再从另一个文本文件(B)中读取文件,然后比较在B中从A中覆盖出现的词汇的百分比。为此,我将出现在Togheter上的每个单词都存储在neuS中。问题来了。如果我尝试获取输出,似乎将值随机存储在内部!因此,例如,我得到如下输出:

elektrotechnik und
die bedeutendste
die bedeutendste
und simulation
erleben die
eine form
eine form


因此,有些单词(正确地说是Ngramms,因为我总是存储两个单词togheter),它们在neuS中只有一次,而其他单词只有一次。我也看到了三倍相同的输出。我希望所有单词在neuS中仅存储一次。我做错了什么?代码不完整,我认为有些代码与该问题无关。

谢谢!

BufferedReader in = new BufferedReader(new FileReader("informatik_test.txt"));
String str;

//
while ((sCurrentLine = in.readLine()) != null) {
    // System.out.println(sCurrentLine);
    arr = sCurrentLine.split(" ");
    for (int i = 0; i < arr.length - 1; i = i + 2) {
        String s = (arr[i].toString() + " " + arr[i + 1].toString())
                .toLowerCase();
        if (null == (hash.get(s))) {
            hash.put(s, 1);
        } else {
            int x = hash.get(s) + 1;
            hash.put(s, x);
        }
    }
    //

    ArrayList< String> words = new ArrayList< String>();
    ArrayList< String> neuS = new ArrayList< String>();
    ArrayList< Long> neuZ = new ArrayList< Long>();

    // Read all Lines from a file
    for (String line = br.readLine(); line != null; line = br.readLine()) {
        String h[] = line.split("   ");

        words.add(h[0].toLowerCase());

    }
    //
    for (String x : hash.keySet()) {
        summe = summe + hash.get(x);
        long neu = hash.get(x);
        for (String s : words) {

            if (x.equals(s)) {
                neuS.add(x);
                neuZ.add(neu);
                disc = disc + 1;
            }

        }
    }
    // Testing which word for output -->! THE PROBLEM!!
    for (String m : neuS) {
        System.out.println(m);
    }

}

最佳答案

如果您希望neuS中的单词仅存储一次,则neuS应该是一个HashSet。实际上,因为wordsneuS都是数组,所以如果单词包含重复项,则neuS也将包含重复项。

旁注:对于String h[] = line.split(" ");,拆分中有2个空格。那是故意的吗?

10-07 20:29