我目前正在使用Tesseract OCR进行Android项目。我希望通过添加字典来微调提供给用户的结果。根据tesseract OCR wiki的说法,最好的方法是

但是,在tessdata文件夹中没有eng.user-words文件,我假设如果我只创建一个带有字典的文本文件,它将永远不会被使用...
是否有人有过类似的经历并且知道该怎么办?

最佳答案

如果您使用的是tesseract 3(我以为您是)。
您将必须重建您的eng.trainddata文件。
我打算完全替换word-dawg文件以尝试获得更好的结果(即-我检测到的单词始终相同)。
编译tesseract时,您将在训练目录中需要combine_tessdatawordlist2dawg可执行文件。

  • 解压缩所有内容(我这样做只是为了备份eng.word-dawg,稍后您还需要unicharset)./combine_tessdata -u eng.traineddata
  • 创建您的单词表的文本文件(wordlistfile)
  • 创建一个eng.word-dawg./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
  • 替换word-dawg文件./combine_tessdata -o eng.traineddata eng.word-dawg

  • 就是这样。

    关于android - Tesseract定制词典,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9568165/

    10-10 17:18