我正在尝试解析一些包含工程图的PDF文件,以获取文件中的文本数据。我尝试将TIKA用作jar与python并将其与jnius包一起使用(在此处使用本教程:
http://www.hackzine.org/using-apache-tika-from-python-with-jnius.html),但代码抛出错误。

但是,使用TIKA包,我可以传递文件并解析它们,但是Python只能提取元数据,并且当要求解析内容时,Python返回输出“ none”。它能够完美地解析.txt文件,但无法提取PDF的内容。这是代码

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('/path/to/file')
print parsed["metadata"]
print parsed["content"]


我是否需要其他程序包/代码行才能提取数据?

最佳答案

您需要下载Tika Server Jar并首先运行它。检查此链接:http://wiki.apache.org/tika/TikaJAXRS


下载罐子
将其存储在某个地方并以java -jar tika-server-x.x.jar --port xxxx的身份运行
在您的代码中,您现在不需要执行tika.initVM()添加tika.TikaClientOnly = True而不是tika.initVM()
parsed = parser.from_file('/path/to/file')更改为
parsed = parser.from_file('/path/to/file', '/path/to/server')您将在第2步中获得服务器路径。启动tika服务器时-只需将其插入此处即可


祝好运!

关于python - 如何在python(2.7)中使用Tika软件包(https://github.com/chrismattmann/tika-python)解析PDF文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33073972/

10-10 22:19