我有一个很大的文本文件,必须在其中解析每一行。
我想通过x + 100000读取x行,并将每行添加到List中,这样list.size 然后,该列表将返回给调用方法进行处理,然后调用方法将请求下一个100k行,从上次中断的位置开始。
下面的代码是使用BufferedReader的一种版本。我返回的前100k行很好,但是在下一个调用中,从第100k + 1行开始,它在第150k行附近开始变慢,在第165k行附近它导致OutOfMemoryError。我到处寻找一种方法,一旦缓冲区到达我要开始添加到列表中的行,便将其清空,但是我找不到任何信息。我也试图找到一种跳过x行数的方法,但是我找不到任何东西。
public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
List<MyModel> result = new ArrayList<>();
try (BufferedReader br = new BufferedReader(new FileReader(inputFile))) {
String line = null;
int row = 0;
int iteration = 0;
try {
while (((line = br.readLine()) != null) && iteration < MAX_ROWS) {
row++;
LOGGER.info("row: " + row + ", iteration: " + iteration);
if (row > startLine && iteration < MAX_ROWS) {
MyModel model = this.fileReader.populateMyModel(line);
model.setFileChecksum(checksum);
result.add(model);
iteration++;
}
if (iteration >= MAX_ROWS) {
break;
}
}
} catch (Exception e) {
throw new FileReaderException("Failed to read line " + iteration + " of " + inputFile.getAbsolutePath(), e);
}
} catch (FileNotFoundException e1) {
throw new FileReaderException("Could not find file '" + inputFile.getAbsolutePath() + "'.", e1);
} catch (IOException e1) {
throw new FileReaderException("Could not read file '" + inputFile.getAbsolutePath() + "'.", e1);
}
return result;
}
在尝试找出如何跳过行的同时,我遇到了Java 8 Stream读取文件的方式,下面的代码就是我试图以这种方式处理的方式。这个函数在第一次调用时效果很好,返回了前10万行。对于第二个调用(从第100k + 1行开始),它返回“ java.lang.IllegalStateException:流已被操作或关闭”。另外,我只想读取x到x + 100k的行,然后返回,而不是循环浏览文件的所有行。我是这个Stream对象的新手,但是似乎可以使用它来提供解决方案。
public List<MyModel> retrieve(File inputFile, int startLine, String checksum) throws DaoException {
List<MyModel> result = new ArrayList<>();
try (Stream<String> lines = Files.lines(inputFile.toPath(), Charset.defaultCharset())) {
lines.skip(startLine);
lines
.filter(line -> result.size() <= 100000)
.forEach(line -> {
result.add(this.fileReader.populateMyModel(line));
if (result.size() % 10000 == 0) {
LOGGER.info("result size: " + result.size());
}
});
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return result;
}
任何的意见都将会有帮助。
最佳答案
当你写:
lines.skip(startLine)
您创建了一个新的流,但是没有保存对它的引用,因此您丢失了该操作。
我怀疑您想要类似的东西:
return lines.skip(startLine)
.limit(100000)
.map(fileReader::populateMyModel)
.collect(toList());