在tesseract的google文档中,此处https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3此处有一条指令,我必须获取Box文件中生成的字符的Unicode。
s 734494751751519 0
p 753486776776518 0
r 779494796796518 0
i 799 494 810 527 0
n 814494837837 0
g 839 485 862 518 0
电话865492878521 0
u 101453122484 0
b 126453146486 0
e 149452168477 0
r 172453187476 0
d 211 451 232 484 0
e 236451255255475 0
n 259452281475 0
现在,我的问题是在哪里或如何获得?我正在为孟加拉语言开发OCR。
最佳答案
框文件是UTF-8编码的文本文件。您可以使用Unicode兼容的文本编辑器或box file editor,使用您喜欢的Bangla输入法打开和编辑字符。
关于linux - 如何在Tesseract框文件中获取或产生所需的Unicode?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29049705/