我们有一个pdf文件,它是一个手写文档,并使用扫描仪转换为pdf文件。我使用的是TIKA 1.13,但无法从此类文件中提取文本。解析后,我只能得到“ \ n \ n”作为文本。这是我的代码:
Parser parser = new AutoDetectParser();
ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
ParseContext parseContext = new ParseContext();
parseContext.set(PDFParserConfig.class, pdfConfig);
parseContext.set(Parser.class, parser);
Metadata metadata = new Metadata();
parser.parse(stream, handler, metadata, parseContext);
谁能帮忙吗?
最佳答案
PDF有两种基本风格。在我所谓的纯pdf中,文本嵌入了一种标记语言,该标记语言具有与html标记,单词标记等相同的功能。可以从这种类型的pdf中恢复文本。
另一种类型是将Word文档另存为pdf时得到的内容。原始文档的每一页都将转换为图像,然后将图像嵌入支持分页的pdf框架中。这次的提取将为您提供图像集合。这些可能适用于OCR处理,也可能不适用。