真的不知道从哪里开始

我有一台具有8000 PDf的Linux服务器,需要知道哪些PDF已经被占用,哪些PDF还没有。

在考虑某种脚本来调用XPDF来检查pdf,但说实话不确定这是否可行

预先感谢您的任何帮助

最佳答案

确保已安装命令行工具pdffonts。 (此版本有两种:一种是xpdf-utils的一部分,另一种是poppler-utils的一部分。)

所有仅由扫描页面组成的PDF将不使用任何字体(既不是嵌入字体,也不是非嵌入字体)。

命令行

pdffonts /path/to/scanned.pdf

然后而不是会显示该文件的任何字体信息。

这足以将文件分成两个不同的组。

如果您的PDF既包含扫描页面又包含“正常”页面(或清理过的页面),则必须扩展和完善上述简化方法。有关更多信息,请参见man pdffontspdffonts --help

09-19 12:01