我正在寻找一个非常快速、轻量级的python库来读取pdf元数据。我不需要任何写功能最好只加载元数据信息,而不是整个文件。
我意识到,像Python这样的解释性语言不是速度的最佳选择,但由于该解决方案需要跨平台并与现有的Python应用程序一起工作,所以似乎没有太多选择余地。
我查看了pypdf和其他一些库,但理想的情况是寻找更轻和更快的文件,适合一次性处理数以万计的文件。
最佳答案
Here's something I just put together,构建在python pdfminer库之上。您可以用它提取“Info”和XMP类型元数据。