我正在使用Camelot阅读完整的PDF,并从每个PDF中提取大约112个属性。

我使用表区域提取属性

 test_variable = camelot.read_pdf(filename, flavor='stream',
                 table_areas=['38, 340 ,50, 328'])


问题是在所有文档中,同一属性的表区域不是恒定的。有时,我会在另一个文档中的x或y坐标上找到同一属性,但位于x或y坐标以下。

 test_variable = camelot.read_pdf(filename, flavor='stream',
                 table_areas=['38,350,50,338'])


有没有一种方法可以从同一区域获取确切的属性,而与提取任何文档无关?

最佳答案

也许table_regions选项(在0.7中引入)可以为您提供帮助。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions

“指定table_regions时,Camelot将仅分析指定的区域以查找表。”

您可以定义更大的table_regions区域,而Camelot将在该区域中搜索表。

10-07 19:00