我想使用Python和PYPDF包从pdf文件中提取文本。
这是我的pdf兄弟,这是我的代码:

import PyPDF2
opened_pdf = PyPDF2.PdfFileReader('test.pdf', 'rb')

p=opened_pdf.getPage(0)

p_text= p.extractText()
# extract data line by line
P_lines=p_text.splitlines()
print P_lines

我的问题是P_lines无法逐行提取数据并导致一个巨大的字符串。我想逐行提取文本进行分析。关于如何改善它的任何建议?
谢谢!
这是代码返回的字符串:



该文件的屏幕截图:
python - 使用Python和Pypdf2从pdf提取文本-LMLPHP

最佳答案

textract使用tesseract方法在python3中可以正常工作。示例代码:

import textract
text = textract.process("pdfs/testpdf1.pdf", method='tesseract')
print(text)
with open('textract-results.txt', 'w+') as f:
    f.write(str(text))

https://pypi.org/project/textract/

10-05 18:45