我想制作一个程序来搜索pdf中的单词
使用PDFBox。
这是我的小程序:
List<String> words ;// List of words
PDDocument document = PDDocument.load("D:\\INIT.pdf");
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
Comparing(content,words);//methode for searching those words on my text
System.out.println(content);
但是是否可以不带
getText
文本直接查看PDF?getText
返回一个字符串。如果我们在pdf文件中有一个大文本,则此String可以接受相同的文本吗?当文本较大且不受String支持时,是否还有另一种类型可以用于这种情况? 最佳答案
希望您在PDFBox中找到解决方案。
整个过程比看起来要困难得多。例如,PDF文本被分成不连续的碎片,并且空格通常表示为空格而不是空格字符。有必要对片段进行抽象,并保留人类可读文本与PDF中基础片段之间的链接。这很棘手。
无论如何,如果您在PDFBox中找不到满意的解决方案,ABCpdf会为您完成此任务。例如,下面的链接显示了如何在PDF中查找和突出显示关键字。
http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm
我从事ABCpdf .NET软件组件的工作,因此我的答复可能包含围绕ABCpdf的概念。这就是我所知道的。 :-)