我在Linux上运行tesseract-ocr引擎时遇到问题。我已经下载了RUS语言数据并将其放入tessdata目录(/ usr / local / share / tessdata)。当我尝试使用tesseract blob.jpg out -l rus命令运行tesseract时,它显示错误:

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.

Failed loading language eng
Tesseract couldn't load any languages!

Could not initialize tesseract.

根据compiling guide,我使用export TESSDATA_PREFIX='/usr/local/share/'指向我的tessdata目录。
也许我应该编辑任何配置文件? Tesseract尝试加载“eng”数据文件而不是“rus”。

屏幕截图:
http://i.stack.imgur.com/I0Guc.png

最佳答案

您可以获取eng.traineddata Github:

wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata

检查https://github.com/tesseract-ocr/tessdata以获取受训语言数据的完整列表。

当您抓取文件时,将它们移动到/usr/local/share/tessdata文件夹。警告:某些Linux发行版(例如openSUSE和Ubuntu)可能期望使用/usr/share/tessdata代替它。
# If you got the data from Google, unzip it first!
gunzip eng.traineddata.gz
# Move the data
sudo mv -v eng.traineddata /usr/local/share/tessdata/

07-27 14:36