我有一些日语文本,但其中一些非日语汉字混在一起。我注意到这是因为我使用的日语字体不支持它们,并且浏览器使用其他字体呈现它们。据我所知,这些字符不在日语中使用,所以它们是错误地到达那里的(文本来自OCR)。我使用this在文本中查找汉字,但它似乎可以识别所有汉字,而不仅仅是汉字。是否有检测这些非日语字符的可靠方法,例如检查unicode的某些部分?

我能想到的唯一解决方案是列出正在使用的汉字的完整列表(或者更像是找到一个汉字),并检查每个字符是否在列表中,但是我怀疑它可能会有点慢。尽管如此,如果我找不到更好的方法来实现这一目标,我可能会以这种方式解决。

最佳答案

是否有检测这些非日语字符的可靠方法,例如检查unicode的某些部分?


不需要。您只需要枚举所有日语字符,例如查找字体支持的所有字符:Finding out what characters a font supports


  (...)检查每个字符是否在列表中,但我怀疑它可能会有点慢。


不要使用列表,请使用哈希集。如果您真的想要一个列表,请对其进行排序并使用二进制搜索。那就不应该太慢。

关于javascript - 我可以在文本中检测非日语汉字吗,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24982637/

10-13 00:18