真的不知道从哪里开始
我有一台具有8000 PDf的Linux服务器,需要知道哪些PDF已经被占用,哪些PDF还没有。
在考虑某种脚本来调用XPDF来检查pdf,但说实话不确定这是否可行
预先感谢您的任何帮助
最佳答案
确保已安装命令行工具pdffonts
。 (此版本有两种:一种是xpdf-utils
的一部分,另一种是poppler-utils
的一部分。)
所有仅由扫描页面组成的PDF将不使用任何字体(既不是嵌入字体,也不是非嵌入字体)。
命令行
pdffonts /path/to/scanned.pdf
然后而不是会显示该文件的任何字体信息。
这足以将文件分成两个不同的组。
如果您的PDF既包含扫描页面又包含“正常”页面(或清理过的页面),则必须扩展和完善上述简化方法。有关更多信息,请参见
man pdffonts
或pdffonts --help
。