我有一个很大的文本文件,必须在其中解析每一行。
我想通过x + 100000读取x行,并将每行添加到List中,这样list.size 然后,该列表将返回给调用方法进行处理,然后调用方法将请求下一个100k行,从上次中断的位置开始。

下面的代码是使用BufferedReader的一种版本。我返回的前100k行很好,但是在下一个调用中,从第100k + 1行开始,它在第150k行附近开始变慢,在第165k行附近它导致OutOfMemoryError。我到处寻找一种方法,一旦缓冲区到达我要开始添加到列表中的行,便将其清空,但是我找不到任何信息。我也试图找到一种跳过x行数的方法,但是我找不到任何东西。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {

    List<MyModel> result = new ArrayList<>();
    try (BufferedReader br = new BufferedReader(new FileReader(inputFile))) {

          String line = null;
          int row = 0;
          int iteration = 0;

          try {
              while (((line = br.readLine()) != null) && iteration < MAX_ROWS) {
                  row++;
                  LOGGER.info("row: " + row + ", iteration: " + iteration);
                  if (row > startLine && iteration < MAX_ROWS) {
                      MyModel model = this.fileReader.populateMyModel(line);
                      model.setFileChecksum(checksum);
                      result.add(model);
                      iteration++;
                  }
                  if (iteration >= MAX_ROWS) {
                      break;
                  }
              }
          } catch (Exception e) {

              throw new FileReaderException("Failed to read line " + iteration + " of " + inputFile.getAbsolutePath(), e);
          }
    } catch (FileNotFoundException e1) {
          throw new FileReaderException("Could not find file '" + inputFile.getAbsolutePath() + "'.", e1);
    } catch (IOException e1) {
          throw new FileReaderException("Could not read file '" + inputFile.getAbsolutePath() + "'.", e1);
    }

        return result;
}


在尝试找出如何跳过行的同时,我遇到了Java 8 Stream读取文件的方式,下面的代码就是我试图以这种方式处理的方式。这个函数在第一次调用时效果很好,返回了前10万行。对于第二个调用(从第100k + 1行开始),它返回“ java.lang.IllegalStateException:流已被操作或关闭”。另外,我只想读取x到x + 100k的行,然后返回,而不是循环浏览文件的所有行。我是这个Stream对象的新手,但是似乎可以使用它来提供解决方案。

public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
    List<MyModel> result = new ArrayList<>();

    try (Stream<String> lines = Files.lines(inputFile.toPath(), Charset.defaultCharset())) {
        lines.skip(startLine);
        lines
        .filter(line -> result.size() <= 100000)
        .forEach(line -> {
            result.add(this.fileReader.populateMyModel(line));
            if (result.size() % 10000 == 0) {
                LOGGER.info("result size: " + result.size());
            }
        });
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

    return result;
}


任何的意见都将会有帮助。

最佳答案

当你写:

lines.skip(startLine)


您创建了一个新的流,但是没有保存对它的引用,因此您丢失了该操作。

我怀疑您想要类似的东西:

return lines.skip(startLine)
            .limit(100000)
            .map(fileReader::populateMyModel)
            .collect(toList());

10-08 16:28