尝试阅读PDF文档的内容时遇到问题。我将iText 2.1.7与Java一起使用,我需要分析PDF文档的内容:最初,我使用PdfTextExtractor的getTextFromPage方法,并且该方法正常运行,但仅当页面只是文本(如果包含)时才有效一张图片,然后我用getTextFromPage获得的String是一组毫无意义的符号(也许是不同的字符编码?),我丢失了整个页面的内容。我尝试使用最新版本的iText并可以正常工作,但如果我没有记错的话,该许可证将不是完全免费的(我正在为商业客户开发Web应用程序,该应用程序可以即时提供PDF),所以我不能使用它。如果您有任何建议,我将不胜感激。

如果您需要它,下面是代码:

PdfReader pdf = new PdfReader(doc);  //doc is just a byte[]
int pageCount = pdf.getNumberOfPages();
for (int i = 1; i <= pageCount; i++) {
    PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(pdf);
    String pageText = pdfTextExtractor.getTextFromPage(i);


在此先感谢,问候。

最佳答案

我认为您的PDF具有嵌入式图像。我认为iText 2.1.7不会解决这个问题。
您可以找到有关许可证here的信息

关于java - 与iText的PdfTextExtractor解析错误,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7354250/

10-12 03:57