我正在为我的项目使用 tika-app jar,有没有办法在 tika 中禁用 tesseract OCR。有两件事必须保持这样:

1.tesseract无法卸载

2.tika.xml 不能编辑,tika-app.jar 是现成的

有没有办法通过设置上下文或解析器属性来禁用 OCR 来设置 java 代码中的配置?

我尝试了下面的代码,但 OCR 在解析时仍然从图像文件中提取文本。

            PDFParserConfig pdfConfig = new PDFParserConfig();
            pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
            context.set(PDFParserConfig.class, pdfConfig);```

最佳答案

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <parsers>
        <parser class="org.apache.tika.parser.DefaultParser">
       <parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
        </parser>
    </parsers>
</properties>

关于java - 有没有办法在不卸载 tesseract 的情况下禁用 Tika 中的 OCR 模式,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56232720/

10-11 22:20