我正在尝试使用 PDFrw 从某个 PDF 获取数据(假设页面 HERE 右上角的那个)。我正在使用 PDFrw 来执行此操作。我浏览了他们提供的文档(我找不到太多)并查看了他们在 git 上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情。我将如何制作一个简单的程序来使用 PDFrw 进入 PDF(如果有更好的程序,则另一个程序)并提取一段文本。我正在考虑将其转换为 html ......那会更容易吗?以我上面提供的 PDF 为例,我想获得(假设)电压,在 PDF 中为 600 w ......我将如何以最简单的方式进行此操作?我找不到关于此的任何其他堆栈溢出问题,所以希望有人可以帮助以前使用过它的人!

谢谢!

最佳答案

我是 pdfrw 的作者,它并不是真正为此而设计的。你可能应该看看pdfminer。

关于python - 如何使用 PDFrw 在 Python 中从 PDF 中提取数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31414157/

10-13 09:14