问题:无法获取Unicode字符以正确打印。

这是我的语法:

options { k=1; filter=true;
 // Allow any char but \uFFFF (16 bit -1)
charVocabulary='\u0000'..'\uFFFE';
}

ANYCHAR :'$'
|    '_' { System.out.println("Found underscore: "+getText()); }
|    'a'..'z' { System.out.println("Found alpha: "+getText()); }
|    '\u0080'..'\ufffe' { System.out.println("Found unicode: "+getText()); }
;

调用词法分析器的主要方法的代码片段:
public static void main(String[] args) {
SimpleLexer simpleLexer = new SimpleLexer(System.in);
while(true) {
try {
Token t = simpleLexer.nextToken();
System.out.println("Token : "+t);

} catch(Exception e) {}

}
}

对于输入“ठ” ,我得到以下输出:
Found unicode:
Token : ["à",<5>,line=1,col=7]
Found unicode:
Token : ["¤",<5>,line=1,col=8]
Found unicode:
Token : [" ",<5>,line=1,col=9]

看来,词法分析器将Unicode字符“ठ”视为三个独立的字符。我的目的是扫描并打印“ठ”。

最佳答案

您的问题不在ANTLR生成的词法分析器中,而是在Java流中传递给它。该流仅读取字节(不以编码方式解释字节),并且您看到的是UTF-8序列。

如果是ANTLR 3,则可以使用将ancoding作为参数的ANTLRInputStream构造函数:

ANTLRInputStream (InputStream input, String encoding) throws IOException

07-26 09:41
查看更多