点击上方“Python3X”,选择“置顶或者星标”
第一时间收到精彩推送!
常见的Python库
以下是可用于处理PDF文件的一些Python库- PDFMiner :一个从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。
- PyPDF2 :一个纯python PDF库,能够分割,合并,裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据,查看选项和密码。它可以从PDF中检索文本和元数据,以及将整个文件合并在一起。
- Tabula-py:一个 tabula-java的简单Python包装器,它可以读取PDF表。您可以从PDF读取表格并转换为pandas的DataFrame。tabula-py还允许您将PDF文件转换为CSV / TSV / JSON文件。
- Slate:PDFMiner的包装器实现
- PDFQuery:pdfminer,lxml和pyquery的轻量级包装器。它旨在使用尽可能少的代码可靠地从PDF集合中提取数据。
- xpdf :xpdf的 Python包装器(目前只是“pdftotext”实用程序)
从pdf中提取文本
使用PyPDF2从pdf中提取简单文本,示例代码如下:import PyPDF2# pdf file object# you can find find the pdf file with complete code in belowpdfFileObj = open('example.pdf', 'rb')# pdf reader objectpdfReader = PyPDF2.PdfFileReader(pdfFileObj)# number of pages in pdfprint(pdfReader.numPages)# a page objectpageObj = pdfReader.getPage(0)# extracting text from page.# this will print the text you can also save that into Stringprint(pageObj.extractText())
# pdf file object
# you can find find the pdf file with complete code in below
pdfFileObj = open('example.pdf', 'rb')
# pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# number of pages in pdf
print(pdfReader.numPages)
# a page object
pageObj = pdfReader.getPage(0)
# extracting text from page.
# this will print the text you can also save that into String
print(pageObj.extractText())
从pdf中读取表格数据
使用Pdf中的Table数据,我们可以使用Tabula-py,示例代码如下:import tabula# readinf the PDF file that contain Table Data# you can find find the pdf file with complete code in below# read_pdf will save the pdf table into Pandas Dataframedf = tabula.read_pdf("offense.pdf")# in order to print first 5 lines of Tabledf.head()
# readinf the PDF file that contain Table Data
# you can find find the pdf file with complete code in below
# read_pdf will save the pdf table into Pandas Dataframe
df = tabula.read_pdf("offense.pdf")
# in order to print first 5 lines of Table
df.head()
df = tabula.read_pdf(“crime.pdf”,multiple_tables = True)
tabula.read_pdf(“crime.pdf”,area =(126,149,212,462),pages = 1)149,212,462),pages = 1)
tabula.read_pdf(“crime.pdf”,output_format =“json”)
将Pdf导出到Excel
使用以下代码将PDF数据转换为Excel或CSVtabula.convert_into(“crime.pdf”,“crime_testing.xlsx”,output_format =“xlsx”)
python提取pdf信息:
https://www.geeksforgeeks.org/working-with-pdf-files-in-python/
原文:
https://towardsdatascience.com/python-for-pdf-ef0fac2808b0
PyPDF2库文档:
https://automatetheboringstuff.com/chapter13/
以上,便是今天的分享,希望大家喜欢,觉得内容不错的。欢迎点击「在看」支持,谢谢各位。
感谢您的阅读