本文介绍了使用Python从扫描的pdf中提取PDF数据的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在用tesseract OCR从扫描的pdf中提取数据,我能够提取数据,但精度不是很好。在很多地方,它显示错误的数据,所以我可以100%准确地获取数据。首先我将pdf转换为jpg格式,然后使用tesseract模块从图像中提取数据。
from PIL import Image
import pytesseract
text=(pytesseract.image_to_string(Image.open(r"C:UserssumeshDesktopipippdf11.jpg")))
text=repr(text)
text=text.replace(r"
","")
print(text)
我期望从pdf获得正确的数据,但我得到的数据不同,例如z显示2,5是s,1是i,依此类推
推荐答案
请在文件路径后加上"dpi=500",这可能会有帮助..有关更多信息,请关注我在此处发布的答案How to convert .png images to searchable PDF/word using Python
这篇关于使用Python从扫描的pdf中提取PDF数据的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!