我试图在Windows 7和Python 2.7中使用pypdfocr

这是我在pypdfocr中尝试cmd时收到的错误消息:


  C:\ Users \ chamar.stu> pypdfocr F:\ test2.pdf开始转换
  F:\ test2.pdf'pdfimages'不被识别为内部或外部
  命令,可操作程序或批处理文件。警告:无法执行
  pdfimages计算DPI(尝试安装xpdf还是po ppler?),因此
  默认为300dpi回溯(最近一次通话为最后一次):文件
  “ c:\ users \ chamar.stu \ appdata \ local \ continuum \ anaconda2 \ lib \ runpy.py”,
  _run_module_as_main中的第174行........
  
  pypdfocr \ pypdfocr_tesseract.py”,第98行,在_is_version_uptodate中
      ver = [ver_str.split('。')中x的int(x)] ValueError:以10为底的int()的无效文字:'00alpha'


似乎我缺少PopplerXPDF,但是我确实按照建议的PyGoObject通过here安装了Poppler。我还按照建议的here在我的环境路径中链接了xpdf

有什么建议让我摆脱这个小混乱吗?

最佳答案

pypdfocr脚本可能正在使用pdfimages模块调用subprocess程序(poppler实用程序之一,而不是库)。

我无法轻易分辨出您提到的URI中是否提供了实用程序。

如果没有,您可以找到实用程序的预构建ms-windows可执行文件,例如here

确保在PATH中安装poppler实用程序的位置,以便pypdfocr可以找到它。

关于python - Python 2.7:Windows 7使用pypdfocr困难,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42852529/

10-14 00:11