我正在使用Camelot阅读完整的PDF,并从每个PDF中提取大约112个属性。
我使用表区域提取属性
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38, 340 ,50, 328'])
问题是在所有文档中,同一属性的表区域不是恒定的。有时,我会在另一个文档中的x或y坐标上找到同一属性,但位于x或y坐标以下。
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38,350,50,338'])
有没有一种方法可以从同一区域获取确切的属性,而与提取任何文档无关?
最佳答案
也许table_regions选项(在0.7中引入)可以为您提供帮助。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions
“指定table_regions时,Camelot将仅分析指定的区域以查找表。”
您可以定义更大的table_regions区域,而Camelot将在该区域中搜索表。