我正在尝试向tesseract ocr添加新字体。我正在关注this tutorial,但是遇到了一些问题。

到目前为止,这是我所做的:

  • 创建培训文档
    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
  • 火车Tesseract
    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
    这创建了我的eng.myfont.exp0.box文件。

    我使用moshpytt打开文件,并确保正确检测到它。
  • 将盒子文件反馈回tesseract
    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
    我有这个结果:


  • eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成
  • 尝试检测框文件中使用的字符集(这是我卡住的地方)
    unicharset_extractor *.box

  • 结果:



    我也尝试了unicharset_extractor eng.myfont.exp0.box具有相同的结果。

    我正在使用:
  • tesseract 3.03
  • leptonica-1.70
  • libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
  • Ubuntu 14.04.1 LTS
  • 最佳答案

    Ubuntu 14.04中省略了针对Tesseract 3.03 RC的培训工具。因此,要么回到Tesseract 3.02,要么升级到应该具有的Ubuntu 14.10。

    关于ocr - 在Tesseract 3中添加新字体,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26205480/

    10-10 13:49