我使用 ply 作为我的 lex 解析器。我的规范如下:
t_WHILE = r'while'
t_THEN = r'then'
t_ID = r'[a-zA-Z_][a-zA-Z0-9_]*'
t_NUMBER = r'\d+'
t_LESSEQUAL = r'<='
t_ASSIGN = r'='
t_ignore = r' \t'
当我尝试解析以下字符串时:
"while n <= 0 then h = 1"
它提供以下输出:
LexToken(ID,'while',1,0)
LexToken(ID,'n',1,6)
LexToken(LESSEQUAL,'<=',1,8)
LexToken(NUMBER,'0',1,11)
LexToken(ID,'hen',1,14) ------> PROBLEM!
LexToken(ID,'h',1,18)
LexToken(ASSIGN,'=',1,20)
LexToken(NUMBER,'1',1,22)
它不识别 token THEN,而是将“hen”作为标识符。
有任何想法吗?
最佳答案
这不起作用的原因与 ply 优先考虑 token 匹配的方式有关,首先测试最长的 token 正则表达式。
防止这个问题的最简单的方法是匹配相同类型的标识符和保留字,并根据匹配选择合适的标记类型。下面的代码类似于ply documentation中的一个例子
import ply.lex
tokens = [ 'ID', 'NUMBER', 'LESSEQUAL', 'ASSIGN' ]
reserved = {
'while' : 'WHILE',
'then' : 'THEN'
}
tokens += reserved.values()
t_ignore = ' \t'
t_NUMBER = '\d+'
t_LESSEQUAL = '\<\='
t_ASSIGN = '\='
def t_ID(t):
r'[a-zA-Z_][a-zA-Z0-9_]*'
if t.value in reserved:
t.type = reserved[ t.value ]
return t
def t_error(t):
print 'Illegal character'
t.lexer.skip(1)
lexer = ply.lex.lex()
lexer.input("while n <= 0 then h = 1")
while True:
tok = lexer.token()
if not tok:
break
print tok
关于parsing - Ply Lex 解析问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5022129/