我正在尝试向tesseract ocr添加新字体。我正在关注this tutorial,但是遇到了一些问题。
到目前为止,这是我所做的:
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
这创建了我的eng.myfont.exp0.box文件。
我使用moshpytt打开文件,并确保正确检测到它。
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
我有这个结果:
unicharset_extractor *.box
结果:
我也尝试了
unicharset_extractor eng.myfont.exp0.box
具有相同的结果。我正在使用:
最佳答案
Ubuntu 14.04中省略了针对Tesseract 3.03 RC的培训工具。因此,要么回到Tesseract 3.02,要么升级到应该具有的Ubuntu 14.10。
关于ocr - 在Tesseract 3中添加新字体,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26205480/