给定一个Unicode字符,返回它的最简单方法是什么(如“拉丁文”、“朝鲜文”等)?script似乎没有提供这种功能。

最佳答案

我本来希望有人以前做过,但显然没有,所以这就是我的结局。下面的模块(我称之为unicodedata2)扩展了unicodedata并提供了script_cat(chr),它为Unicode字符返回一个元组(脚本名,catelogy)。例子:

# coding=utf8
import unicodedata2
print unicodedata2.script_cat(u'Ф')  #('Cyrillic', 'L')
print unicodedata2.script_cat(u'の')  #('Hiragana', 'Lo')
print unicodedata2.script_cat(u'★')  #('Common', 'So')

模块:https://gist.github.com/2204527

10-01 20:45