我认为这个问题只与支持 LSTM 的 Tesseract 4 有关。由于我使用的是 64 位 Windows 系统,因此我从这里下载了 64-bit windows executable - https://github.com/UB-Mannheim/tesseract/wiki
它具有以下 OCR 引擎模式:
它适用于除 2 之外的所有模式。
使用 --oem 1 运行时
tesseract --oem 1 1.jpg 1
结果:
Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 561
Detected 5 diacritics
并创建一个文件 1.txt 与相应的 OCR 结果。
使用 --oem 2 运行时
tesseract --oem 2 1.jpg 1
结果:
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
并且不产生任何输出。
我认为错误将与语言安装有关,但是
tesseract --list-langs
这给了我以下结果
List of available languages (2):
eng
osd
我什至手动检查了 tessdata 文件夹,这是相同的屏幕截图
这清楚地表明我已经拥有 eng 语言。
最佳答案
是的,您有 eng 语言,但仅支持 LSTM。如果您想获得 LSTM&Legacy 支持,您需要从 tessdata repository 下载数据
关于ocr - Tesseract 4 与 OCR 引擎模式一起使用时无法加载任何语言 - "Legacy + LSTM engines"(--oem 2),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55689750/