我试图将包含由定界符分隔的字符串的单个行解析为这些字符串的序列。它应该能够在字符串中包含任何字符,如果字段包含定界符,则它需要在其周围加上双引号。为了在此类字段中使用双引号,请使用来对双引号进行转义。
我以此为起点:https://github.com/sirthias/parboiled2/blob/695ee6603359cfcb97734edf6dd1d27383c48727/examples/src/main/scala/org/parboiled2/examples/CsvParser.scala
我的语法如下:
class CsvParser(val input: ParserInput, val delimiter: String = ",") extends Parser {
def line: Rule1[Seq[String]] = rule {record ~ EOI}
def record = rule(oneOrMore(field).separatedBy(delimiter))
def QUOTE = "\""
def ESCAPED_QUOTE = "\\\""
def DELIMITER_QUOTE = delimiter+"\""
def WS = " \t".replace(delimiter, "")
def field = rule{whiteSpace ~ ((QUOTE ~ escapedField ~ QUOTE) | unquotedField) ~ whiteSpace}
def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) }
def unquotedField = rule { capture(zeroOrMore(noneOf(DELIMITER_QUOTE))) }
def whiteSpace = rule(zeroOrMore(anyOf(WS)))
}
当我用
"quote\"key",1,2
调用时我得到
Invalid input 'k', expected whiteSpace, ',' or 'EOI' (line 1, column 9)
我究竟做错了什么?我将如何调试呢? (还有一个额外的问题:我将如何扩展语法以使分隔符成为像
##
这样的多个字符?)谢谢!
最佳答案
Parboiled2似乎可以执行规则而不会回溯。
在这种情况下
def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) }
noneOf(QUOTE)
从\“捕获\,然后返回,而不是回溯并尝试捕获完整的\”。该错误通过使用解决
def escapedField = rule { capture(ESCAPED_QUOTE | zeroOrMore(noneOf(QUOTE))) ~> (_.replace(ESCAPED_QUOTE, QUOTE)) }