我在源代码中的某些正则表达式中使用了一些日语/法语单词。我不想将它们转换为\ u表示法,因为跟踪它会很困难,并且可能会引入难以捕获的错误。

我们是否有任何标准惯例来处理源代码中的非ASCII字符,还是可以按原样使用它们?

谢谢

最佳答案

这有点冒险,因为程序的行为现在取决于要在其上编译程序的计算机的平台默认编码或编译器参数。这也导致难以捕捉的错误。

如果只有少数这样的正则表达式,我更喜欢使用Unicode转义符。如果有很多,我会咬紧牙关,使用源代码的UTF-8,但前提是我必须


使用UTF-8进行编译的构建脚本(并且仅使用该脚本构建应用程序)
一些单元测试可确认正则表达式正常运行
自动构建服务器,为每个构建运行单元测试

10-08 08:35
查看更多