给定一个Unicode字符,返回它的最简单方法是什么(如“拉丁文”、“朝鲜文”等)?script似乎没有提供这种功能。
最佳答案
我本来希望有人以前做过,但显然没有,所以这就是我的结局。下面的模块(我称之为unicodedata2
)扩展了unicodedata
并提供了script_cat(chr)
,它为Unicode字符返回一个元组(脚本名,catelogy)。例子:
# coding=utf8
import unicodedata2
print unicodedata2.script_cat(u'Ф') #('Cyrillic', 'L')
print unicodedata2.script_cat(u'の') #('Hiragana', 'Lo')
print unicodedata2.script_cat(u'★') #('Common', 'So')
模块:https://gist.github.com/2204527