本文介绍了Mapreduce Hadoop的PDF输入格式的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
您好,我使用PDFBOX外部函数库解析mapreduce中的pdf输入文件,但我收到以下错误。
$ b
我正在使用以下依赖项:
<依赖性>
< groupId> org.apache.pdfbox< / groupId>
< artifactId> pdfbox< / artifactId>
< version> 1.8.10< / version>
< /依赖关系>
< dependency>
< groupId> org.apache.pdfbox< / groupId>
< artifactId> fontbox< / artifactId>
< version> 1.8.5< / version>
< /依赖关系>
解决方案
将pdfbox的jar文件放在hadoop lib (使库库在运行时可用于hadoop)。
2)重新启动hadoop集群。
或者
1)确保您的pdfbox库可用于hadoop,方法是将其放入分布式缓存中。
Hi I anm using PDFBOX external library for parsing the pdf input file in mapreduce,but i am getting the following error.
I am using the following dependency
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>1.8.10</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>1.8.5</version>
</dependency>
解决方案
1) Place the jar file of pdfbox in hadoop lib folder too.(make library jar available to hadoop at runtime).
2) Restart hadoop cluster.
Or
1) Make sure that your pdfbox library is available to hadoop by placing it in distributed cache.
这篇关于Mapreduce Hadoop的PDF输入格式的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!