我正在尝试解析一些包含工程图的PDF文件,以获取文件中的文本数据。我尝试将TIKA用作jar与python并将其与jnius包一起使用(在此处使用本教程:
http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html),但代码抛出错误。
但是,使用TIKA包,我可以传递文件并解析它们,但是Python只能提取元数据,并且当要求解析内容时,Python返回输出“ none”。它能够完美地解析.txt文件,但无法提取PDF的内容。这是代码
import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]
我是否需要其他程序包/代码行才能提取数据?
最佳答案
您需要下载Tika Server Jar并首先运行它。检查此链接:http://wiki.apache.org/tika/TikaJAXRS
下载罐子
将其存储在某个地方并以java -jar tika-server-x.x.jar --port xxxx
的身份运行
在您的代码中,您现在不需要执行tika.initVM()
添加tika.TikaClientOnly = True
而不是tika.initVM()
将parsed = parser.from_file('/path/to/file')
更改为parsed = parser.from_file('/path/to/file', '/path/to/server')
您将在第2步中获得服务器路径。启动tika服务器时-只需将其插入此处即可
祝好运!
关于python - 如何在python(2.7)中使用Tika软件包(https://github.com/chrismattmann/tika-python)解析PDF文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33073972/