我想使用Python和PYPDF包从pdf文件中提取文本。
这是我的pdf兄弟,这是我的代码:
import PyPDF2
opened_pdf = PyPDF2.PdfFileReader('test.pdf', 'rb')
p=opened_pdf.getPage(0)
p_text= p.extractText()
# extract data line by line
P_lines=p_text.splitlines()
print P_lines
我的问题是P_lines无法逐行提取数据并导致一个巨大的字符串。我想逐行提取文本进行分析。关于如何改善它的任何建议?
谢谢!
这是代码返回的字符串:
该文件的屏幕截图:
最佳答案
textract
使用tesseract
方法在python3中可以正常工作。示例代码:
import textract
text = textract.process("pdfs/testpdf1.pdf", method='tesseract')
print(text)
with open('textract-results.txt', 'w+') as f:
f.write(str(text))
https://pypi.org/project/textract/