我正在尝试解析CSV文件,如下所示

String NEW_LINE_SEPARATOR = "\r\n";CSVFormat csvFileFormat = CSVFormat.DEFAULT.withRecordSeparator(NEW_LINE_SEPARATOR);FileReader fr = new FileReader("201404051539.csv");CSVParser csvParser = csvFileFormat.withHeader().parse(fr);List<CSVRecord> recordsList = csvParser.getRecords();

现在,该文件的普通行以CRLF字符结尾,但是对于少数几行,中间还有其他LF字符出现。


    a,b,c,dCRLF --line1
    e,fLF,g,h,iCRLF --line2


因此,解析操作将创建三个记录,而实际上它们只有两个。

有没有一种方法可以使LF字符出现在第二行的中间而不被视为换行符,并且仅在解析时获得两条记录?

谢谢

最佳答案

我认为uniVocity-parsers是您将发现的唯一可以与行尾匹配的解析器。

使用univocity-parsers的等效代码将是:

    CsvParserSettings settings = new CsvParserSettings(); //many options here, check the tutorial
    settings.getFormat().setLineSeparator("\r\n");
    settings.getFormat().setNormalizedNewline('\u0001'); //uses a special character to represent a new record instead of \n.
    settings.setNormalizeLineEndingsWithinQuotes(false); //does not replace \r\n by the normalized new line when reading quoted values.
    settings.setHeaderExtractionEnabled(true); //extract headers from file
    settings.trimValues(false); //does not remove whitespaces around values
    CsvParser parser = new CsvParser(settings);

    List<Record> recordsList = parser.parseAllRecords(new File("201404051539.csv"));


如果将行分隔符定义为\ r \ n,则这是唯一标识新记录的字符序列(用引号引起来)。所有值都可以具有\ r或\ n而不用引号引起来,因为这不是行分隔符序列。

解析输入样本时,您给出了:

String input = "a,b,c,d\r\ne,f\n,g,h,i\r\n";
parser.parseAll(new StringReader(input));


结果将是:

LINE1 = [a, b, c, d]
LINE2 = [e, f
, g, h, i]


披露:我是这个图书馆的作者。它是开源且免费的(Apache 2.0许可证)

08-19 15:54