我需要确定输入内容属于哪种自然语言。
目的是在混合输入中区分阿拉伯语和英语单词,其中输入是Unicode,并且是从XML文本节点中提取的。
我注意到了Character.UnicodeBlock
类。与我的问题有关吗?我如何使它工作?
编辑:
Character.UnicodeBlock
方法对阿拉伯语很有用,但显然对英语(或其他欧洲语言)不适用,因为BASIC_LATIN
Unicode块包含符号,不可打印字符以及字母。
因此,现在我将matches()
对象的String
方法与正则表达式"[A-Za-z]+"
结合使用。我可以接受,但是也许有人可以建议一种更好/更快的方法。
最佳答案
是的,您可以简单地使用Character.UnicodeBlock.of(char)
关于java - Java:如何检查字符是否属于特定的Unicode代码块?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/404733/