我想制作一个程序来搜索pdf中的单词
使用PDFBox。

这是我的小程序:

List<String> words ;// List of words
        PDDocument document = PDDocument.load("D:\\INIT.pdf");
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);


但是是否可以不带getText文本直接查看PDF?

getText返回一个字符串。如果我们在pdf文件中有一个大文本,则此String可以接受相同的文本吗?当文本较大且不受String支持时,是否还有另一种类型可以用于这种情况?

最佳答案

希望您在PDFBox中找到解决方案。

整个过程比看起来要困难得多。例如,PDF文本被分成不连续的碎片,并且空格通常表示为空格而不是空格字符。有必要对片段进行抽象,并保留人类可读文本与PDF中基础片段之间的链接。这很棘手。

无论如何,如果您在PDFBox中找不到满意的解决方案,ABCpdf会为您完成此任务。例如,下面的链接显示了如何在PDF中查找和突出显示关键字。

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

我从事ABCpdf .NET软件组件的工作,因此我的答复可能包含围绕ABCpdf的概念。这就是我所知道的。 :-)

07-26 00:05