hadoop - 使用Behemoth在Hadoop上运行UIMA作业

我有一个功能齐全的UIMA作业，可以做简单的注释。我可以通过本地CAS GUI成功启动它。

我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人为此工作？作业成功运行，但是在hadoop输出目录中； UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到该作业成功完成，并将其输入数据复制到了最终输出目录。

有人可以指出我可能在这里发生什么吗，我们需要对UIMA代码进行任何其他更改吗？

谢谢

最佳答案

以下是适用于我组成的小型管道的步骤:

将UIMA管道导出为jar(Your-pipeline.jar)

复制到HDFS

生成庞然大物语料库(**请记住，以下所有路径均为hdfs路径**)
hadoop jar tika / target / behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i / user / blah / -o / user / blah /

使用您的管道进行处理
hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver / user / blah / / user / blah / /apps/Your-pipeline.pear

列表注释:
hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a / user / blah /

将注释转换为文本:
hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i / user / blah / -o / user / blah /

关于hadoop - 使用Behemoth在Hadoop上运行UIMA作业，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/12562098/