This question already has answers here:
Whitespace gone from PDF extraction, and strange word interpretation
(7个答案)
3年前关闭。
我已经阅读了许多其他stackoverflow答案,但尚未找到令人满意的答案,但是之前已经有人问过。当我尝试使用PyPDF2读取pdf文档时,它会将句子中的所有单词合并为一个连续的字符串。任何人在弄清楚如何避免这种情况方面都取得了进展。下面是代码
以下是输出示例
(7个答案)
3年前关闭。
我已经阅读了许多其他stackoverflow答案,但尚未找到令人满意的答案,但是之前已经有人问过。当我尝试使用PyPDF2读取pdf文档时,它会将句子中的所有单词合并为一个连续的字符串。任何人在弄清楚如何避免这种情况方面都取得了进展。下面是代码
import PyPDF2
import pandas as pd
import struct as struct
from nltk import word_tokenize
pdfFileObj = open("notes.pdf", 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
## reading pages fine
print(type(pdfReader.numPages))
## read in the pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
以下是输出示例
2)Explanationofthedifferencebetweenprobabilityandstatistics.Theroleofprobability
instatisticaldecisionmaking.ExamplesoftheuseofProbabilityinStatistics.
3)Datasummarization(graphicalandnumerical)
4)Probabilityandrandomvariables
最佳答案
从来没有想过如何删除空格,这是一个非常笨拙的程序。我发现使用pdfMiner的答案是最有用的。这很容易理解,并且存在更好的文档。以下是与我自己有相同问题的任何人的链接。
http://survivalengineer.blogspot.ie/2014/04/parsing-pdfs-in-python.html
关于python - PyPDF2坚持要删除所有空格,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36914276/
10-12 20:09