我遇到了一个叫做Tabula的很棒的图书馆,它几乎成功了。不幸的是,第一页上有很多我不想让Tabula提取的无用区域。根据文档,您可以指定要提取的页面区域。但是,无用的区域仅在我的PDF文件的第一页上,因此,对于所有后续页面,Tabula将错过顶部。有没有一种方法可以指定仅适用于PDF第一页的区域条件?

from tabula import read_pdf

df = read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages='all')

最佳答案

我正在尝试类似的工作(解析银行对帐单),并且遇到了相同的问题。到目前为止,解决此问题的唯一方法是单独解析每个页面。

唯一的问题是,这需要事先知道文件由多少页组成。目前,我还没有找到如何直接使用Tabula来执行此操作,因此,我决定使用pyPdf模块来获取页数。

import pyPdf
from tabula import read_pdf

reader = pyPdf.PdfFileReader(open("C:\Users\riley\Desktop\Bank Statements\50340.pdf", mode='rb' ))
n = reader.getNumPages()

df = []
for page in [str(i+1) for i in range(n)]:
    if page == "1":
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages=page))
    else:
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", pages=page))


请注意,单独或同时阅读每页时,都有一些known and open issues

祝好运!

2017年8月3日编辑:

找到了一种无需通过pyPDf即可计数pdf页面的更简单方法

import re
def count_pdf_pages(file_path):
    rxcountpages = re.compile(r"/Type\s*/Page([^s]|$)", re.MULTILINE|re.DOTALL)
    with open(file_path, "rb") as temp_file:
        return len(rxcountpages.findall(temp_file.read()))


当然,file_path是您文件的路径

09-06 10:08