本文介绍了在python中使用制表器循环访问pdf文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我很难让一段代码正常工作。我想遍历文件夹中的pdf文件,提取TABULA包认为的表,将它们提取到一个数据帧中,并将特定pdf中的所有表写入一个CSV文件。

我查看了this post(以及其他几个),但我仍然无法使其正常工作。脚本似乎循环遍历文件,提取一些表,但它似乎没有遍历文件,而且我无法让它将所有数据帧写入CSV文件。该脚本只写入CSV中的最后一个。

这就是我到目前为止所拥有的。任何帮助都将不胜感激,特别是如何正确地循环文件,以及如何将一个pdf中的所有表写入一个csv文件。我被卡住了……

pdf_folder = 'C:\PDF extract\pdf\'
csv_folder = 'C:\PDF extract\csv\'

    paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]
    for path in paths:
        listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
        path = path.replace('pdf', 'csv')
        for df in listdf: (df.to_csv(path, index = False))

推荐答案

就像@Scott Hunter提到的那样,您没有使用csv_Folders

另外,我认为您正在覆盖创建的.csv文件:

for df in listdf: (df.to_csv(path, index = False))

对于for循环的每次迭代,PATH变量保持不变。

编辑:您可能应该尝试这样做:

pdf_folder = 'C:\PDF extract\pdf\'
paths = [pdf_folder + fn for fn in os.listdir(pdf_folder) if fn.endswith('.pdf')]

for path in paths:
    listdf = tabula.read_pdf(path, encoding = 'latin1', pages = 'all', nospreadsheet = True,multiple_tables=True)
    path = path.replace('pdf', 'csv')
    df_concat = pd.concat(listdf)
    df_concat.to_csv(path, index = False)

这篇关于在python中使用制表器循环访问pdf文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-21 06:52