我想将OCR识别后的字符串转换为日语文本后的数字。

例如,当我提取日期时:

③① 年 ⑫ 月 ①③ 日

我想将其转换为:
31 年 12 月 13 日

实现它的最佳方法是什么?

最佳答案

我会用unicodedata

import unicodedata
print(unicodedata.normalize("NFKC","③① 年 ⑫ 月 ①③ 日"))

结果就是这样
31 年 12 月 13 日

这还将转换日语数字的其他变体,即全角数字。
import unicodedata
print(unicodedata.normalize("NFKC","123①②③123"))


123123123

08-07 15:59