我正在尝试分析包含此类象形文字的文本流:
💄 -> 128132 -> Lipstick
💅 -> 128133 -> Nail Polish
💋 -> 128139 -> Kiss Mark
我希望能够查找每个字符的名称,例如,每当遇到💄字形时,我都想用字母数字符号(如“ UNICODE_LIPSTICK”)替换它。
某处是否有数据文件列出所有unicode字符的编号及其名称?我正在进行某种映射(最好采用易于导入的纯文本格式)。是否存在这样的数据集?
我实际上是在Python 3中编程,所以如果语言中内置了某些功能,那就更好了!
最佳答案
您可以使用unicodedata.name()
function查找官方代码点名称:
>>> import unicodedata
>>> unicodedata.name(chr(128132))
'LIPSTICK'
>>> unicodedata.name(chr(128133))
'NAIL POLISH'
>>> unicodedata.name(chr(128139))
'KISS MARK'
关于python - 获取Unicode象形图的名称,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31635600/