我认为这个问题只与支持 LSTM 的 Tesseract 4 有关。由于我使用的是 64 位 Windows 系统,因此我从这里下载了 64-bit windows executable - https://github.com/UB-Mannheim/tesseract/wiki

它具有以下 OCR 引擎模式:

  • 0 仅旧引擎。
  • 1 仅限神经网络 LSTM 引擎。
  • 2 传统 + LSTM 引擎。
  • 3 默认值,基于可用内容。

  • 它适用于除 2 之外的所有模式。

    使用 --oem 1 运行时
    tesseract --oem 1 1.jpg 1
    

    结果:
    Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica
    Warning: Invalid resolution 0 dpi. Using 70 instead.
    Estimating resolution as 561
    Detected 5 diacritics
    

    并创建一个文件 1.txt 与相应的 OCR 结果。

    使用 --oem 2 运行时
    tesseract --oem 2 1.jpg 1
    

    结果:
    Failed loading language 'eng'
    Tesseract couldn't load any languages!
    Could not initialize tesseract.
    

    并且不产生任何输出。

    我认为错误将与语言安装有关,但是
    tesseract --list-langs
    

    这给了我以下结果
    List of available languages (2):
    eng
    osd
    

    我什至手动检查了 tessdata 文件夹,这是相同的屏幕截图

    ocr - Tesseract 4 与 OCR 引擎模式一起使用时无法加载任何语言 -  "Legacy + LSTM engines"(--oem 2)-LMLPHP

    这清楚地表明我已经拥有 eng 语言。

    最佳答案

    是的,您有 eng 语言,但仅支持 LSTM。如果您想获得 LSTM&Legacy 支持,您需要从 tessdata repository 下载数据

    关于ocr - Tesseract 4 与 OCR 引擎模式一起使用时无法加载任何语言 - "Legacy + LSTM engines"(--oem 2),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/55689750/

    10-11 22:15
    查看更多