我目前正在使用Tesseract OCR进行Android项目。我希望通过添加字典来微调提供给用户的结果。根据tesseract OCR wiki的说法,最好的方法是
但是,在tessdata文件夹中没有eng.user-words文件,我假设如果我只创建一个带有字典的文本文件,它将永远不会被使用...
是否有人有过类似的经历并且知道该怎么办?
最佳答案
如果您使用的是tesseract 3
(我以为您是)。
您将必须重建您的eng.trainddata
文件。
我打算完全替换word-dawg文件以尝试获得更好的结果(即-我检测到的单词始终相同)。
编译tesseract时,您将在训练目录中需要combine_tessdata
和wordlist2dawg
可执行文件。
./combine_tessdata -u eng.traineddata
./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
./combine_tessdata -o eng.traineddata eng.word-dawg
就是这样。
关于android - Tesseract定制词典,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9568165/