我有一个运行正常的pdftotext旧linux版本(0.12.4),但是我想在windows 7机器上运行它。
我下载了最新版本的windows安装程序,xpdf-2.03-bin.exe来自http://gnuwin32.sourceforge.net/packages/xpdf.htm
我接受了所有安装程序的默认设置。当我在linux版本正确处理的pdf文件上运行windows 7pdftotext时,得到了以下一系列错误消息:

 - Error <0>: PDF file is damaged - attempting to reconstruct xref table ...
 - Error: Couldn't find trailer dictionary
 - List item Error: Couldn't read xref table

我对这些错误信息进行了网络搜索,但我发现与这些错误相关的问题似乎都与我遇到的问题无关。
有没有人在Windows7上遇到过pdftotext这个问题,或者知道如何解决它?

最佳答案

从版本号猜测:
0.12.4在Linux上
2.03在Windows上
您似乎使用了两种完全不同的野兽,它们都包含一个名为pdftotext的实用程序:
版本0.12.4是2010年2月发布的基于poppler的版本pdftotext。现在快5岁了,现在已经相当过时了。poppler是xpdf原始代码库的“fork”,它发生在2005年。自从fork出现以来,它的开发速度已经超过了“母亲”代码,并且获得了更多附加的+有用的特性。不过,很难找到windows的预编译二进制文件。最新版本是0.30.0(2015年1月)。
版本2.03是2003年10月发布的基于xpdf的版本pdftotext。现在已经11岁多了,很古老。xpdf是提供pdftotext实用程序的原始软件。它于1995年首次发行。它仍在开发中,尽管比波普勒叉子更慢。其最新版本是3.04版(2014年5月),可以downloaded here。注意--您可能非常感兴趣:这个版本包含一个新的文本提取器!

关于linux - Windows 7遇到“pdftotext”错误-在Linux下正确处理了相同的PDF,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26306056/

10-10 14:08