我正在使用python2.7和PDFminer从pdf提取文本。我注意到有时PDFminer给我的单词带有奇怪的字母,但是pdf查看器却没有。同样,对于一些PDFminer和其他pdf查看器返回的pdf文档结果,它们是相同的(奇怪),但是有些文档中pdf查看器可以识别文本(复制粘贴)。这是返回值的示例:
从pdf检视器中读取:فتــح بـــاب ا.ستيــراد البيــ�ض والدجــــاج المجمـــد
来自PDFMiner:óªéªdG êÉ````LódGh ¢†``«ÑdG OGô``«à°SG ÜÉ
Hí``àa
所以我的问题是我可以获得与pdf查看器相同的结果,而PDFminer有什么问题。它会丢失我不知道的编码吗?
最佳答案
是。
当使用自定义字体编码(例如, identity-H,identity-V等,但是字体未正确嵌入。
pdfminer在这种情况下会提供垃圾输出,因为需要编码才能解释文本