我想使用 iTextSharp 从 pdf 文件中检索文本。但是,我无法像在 itextsharp(itext) 的 JAVA 库中那样使用 PDFTextExtractor。我需要 readPDFOffline 类来返回文件的内容。我将在下面给出伪代码,让您更好地理解我想要什么。
私有(private)字符串 readPDFOffline(string fileUri);
阅读PDF;
检索此 PDF 的文本内容;*
将内容保存到字符串 contentOfflineFile 中;
返回内容离线文件;
我想做代码的 * 部分
最佳答案
PdfTextExtractor 出现在 iTextSharp 的最新版本中, available here 。
检索 PDF 中的文本并不容易。并非不可能,但有时唯一可行的方法是 OCR。对于所有其他情况, PdfTextExtractor 应该可以工作。它不工作的情况被认为是错误,应该像这样报告。
请注意,在几种情况下,看似有效的文本是不可提取的:
OCR :光学字符识别。 Google Code 上甚至还有一个相当不错的免费提供,尽管我不记得这个名字了。
关于itextsharp - 如何在 iTextSharp 上使用 PDFTextExtractor,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4412790/