在tesseract的google文档中,此处https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3此处有一条指令,我必须获取Box文件中生成的字符的Unicode。

s 734494751751519 0

p 753486776776518 0

r 779494796796518 0

i 799 494 810 527 0

n 814494837837 0

g 839 485 862 518 0

电话865492878521 0

u 101453122484 0

b 126453146486 0

e 149452168477 0

r 172453187476 0

d 211 451 232 484 0

e 236451255255475 0

n 259452281475 0

现在,我的问题是在哪里或如何获得?我正在为孟加拉语言开发OCR。

最佳答案

框文件是UTF-8编码的文本文件。您可以使用Unicode兼容的文本编辑器或box file editor,使用您喜欢的Bangla输入法打开和编辑字符。

关于linux - 如何在Tesseract框文件中获取或产生所需的Unicode?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29049705/

10-11 22:30
查看更多