PDFbox内容流是按页面完成的,但是字段来自表单的形式,该形式来自目录,而形式又来自pdf doc本身。因此,我不确定哪些字段位于哪些页面上,以及导致将文本写到不正确的位置/页面上的原因。

IE。我正在处理每页中的字段,但不确定哪些字段在哪些页面上。

有没有办法告诉哪个字段在哪个页面上?或者,是否有办法只获取当前页面上的字段?

谢谢!

标记

代码段:

PDDocument pdfDoc = PDDocument.load(file);
PDDocumentCatalog docCatalog = pdfDoc.getDocumentCatalog();
PDAcroForm acroForm = docCatalog.getAcroForm();

// Get field names
List<PDField> fieldList = acroForm.getFields();
List<PDPage> pages = pdfDoc.getDocumentCatalog().getAllPages();
for (PDPage page : pages) {
  PDPageContentStream contentStream = new PDPageContentStream(pdfDoc, page, true, true, true);
  processFields(acroForm, fieldList, contentStream, page);
  contentStream.close();
}

最佳答案


原因是PDF包含定义表单的全局对象结构。此结构中的表单字段在0、1或更多实际PDF页面上可能具有0、1或更多可视化效果。此外,在仅一个可视化的情况下,允许将现场对象和可视化对象合并。
PDFBox 1.8.x
不幸的是,PDFBox在其PDAcroFormPDField对象中仅表示此对象结构,无法轻松访问相关页面。但是,通过访问基础结构,您可以建立连接。
以下代码应明确说明如何执行此操作:

@SuppressWarnings("unchecked")
public void printFormFields(PDDocument pdfDoc) throws IOException {
    PDDocumentCatalog docCatalog = pdfDoc.getDocumentCatalog();

    List<PDPage> pages = docCatalog.getAllPages();
    Map<COSDictionary, Integer> pageNrByAnnotDict = new HashMap<COSDictionary, Integer>();
    for (int i = 0; i < pages.size(); i++) {
        PDPage page = pages.get(i);
        for (PDAnnotation annotation : page.getAnnotations())
            pageNrByAnnotDict.put(annotation.getDictionary(), i + 1);
    }

    PDAcroForm acroForm = docCatalog.getAcroForm();

    for (PDField field : (List<PDField>)acroForm.getFields()) {
        COSDictionary fieldDict = field.getDictionary();

        List<Integer> annotationPages = new ArrayList<Integer>();
        List<COSObjectable> kids = field.getKids();
        if (kids != null) {
            for (COSObjectable kid : kids) {
                COSBase kidObject = kid.getCOSObject();
                if (kidObject instanceof COSDictionary)
                    annotationPages.add(pageNrByAnnotDict.get(kidObject));
            }
        }

        Integer mergedPage = pageNrByAnnotDict.get(fieldDict);

        if (mergedPage == null)
            if (annotationPages.isEmpty())
                System.out.printf("i Field '%s' not referenced (invisible).\n", field.getFullyQualifiedName());
            else
                System.out.printf("a Field '%s' referenced by separate annotation on %s.\n", field.getFullyQualifiedName(), annotationPages);
        else
            if (annotationPages.isEmpty())
                System.out.printf("m Field '%s' referenced as merged on %s.\n", field.getFullyQualifiedName(), mergedPage);
            else
                System.out.printf("x Field '%s' referenced as merged on %s and by separate annotation on %s. (Not allowed!)\n", field.getFullyQualifiedName(), mergedPage, annotationPages);
    }
}
当心,PDFBox PDAcroForm表单字段处理中有两个缺点:
  • PDF规范允许将表单的全局对象结构定义为一棵深树,即,实际字段不必是根的直接子代,而可以通过内部树节点来组织。 PDFBox会忽略这一点,并希望这些字段是根的直接子代。
  • 一些狂野的PDF(首先是较旧的PDF)不包含域树,而仅通过可视化的窗口小部件注释引用页面中的域对象。 PDFBox在其PDAcroForm.getFields列表中看不到这些字段。

  • PS:@mikhailvs中的 his answer正确显示,您可以使用PDField.getWidget().getPage()从字段小部件中检索页面对象,并使用catalog.getAllPages().indexOf确定其页面编号。尽管速度很快,但是getPage()方法有一个缺点:它从小部件注释字典的可选条目中检索页面引用。因此,如果您处理的PDF是由填充该条目的软件创建的,那么一切都很好,但是,如果PDF创建者尚未填充该条目,则您得到的只是null页面。
    PDFBox 2.0.x
    在2.0.x中,用于访问有问题的元素的某些方法已更改,但整体情况没有改变,要安全地检索小部件的页面,您仍然必须遍历页面并找到引用注解的页面。
    安全方法:
    int determineSafe(PDDocument document, PDAnnotationWidget widget) throws IOException
    {
        COSDictionary widgetObject = widget.getCOSObject();
        PDPageTree pages = document.getPages();
        for (int i = 0; i < pages.getCount(); i++)
        {
            for (PDAnnotation annotation : pages.get(i).getAnnotations())
            {
                COSDictionary annotationObject = annotation.getCOSObject();
                if (annotationObject.equals(widgetObject))
                    return i;
            }
        }
        return -1;
    }
    
    快速方法
    int determineFast(PDDocument document, PDAnnotationWidget widget)
    {
        PDPage page = widget.getPage();
        return page != null ? document.getPages().indexOf(page) : -1;
    }
    
    用法:
    PDAcroForm acroForm = document.getDocumentCatalog().getAcroForm();
    if (acroForm != null)
    {
        for (PDField field : acroForm.getFieldTree())
        {
            System.out.println(field.getFullyQualifiedName());
            for (PDAnnotationWidget widget : field.getWidgets())
            {
                System.out.print(widget.getAnnotationName() != null ? widget.getAnnotationName() : "(NN)");
                System.out.printf(" - fast: %s", determineFast(document, widget));
                System.out.printf(" - safe: %s\n", determineSafe(document, widget));
            }
        }
    }
    
    (DetermineWidgetPage.java)
    (与1.8.x代码相反,此处的安全方法只是搜索单个字段的页面。如果在代码中必须确定许多小部件的页面,则应像在1.8.x情况下那样创建查找Map。 )
    范例文件
    快速方法失败的文档:aFieldTwice.pdf
    快速方法适用的文档:test_duplicate_field2.pdf

    10-07 19:32
    查看更多