我有一个功能齐全的UIMA作业,可以做简单的注释。我可以通过本地CAS GUI成功启动它。

我一直在尝试使用Apache Behemoth在Hadoop上运行UIMA作业。我想知道是否有人为此工作?作业成功运行,但是在hadoop输出目录中; UIMA作业没有输出。我可以在Hadoop作业跟踪器输出中看到该作业成功完成,并将其输入数据复制到了最终输出目录。

有人可以指出我可能在这里发生什么吗,我们需要对UIMA代码进行任何其他更改吗?

谢谢

最佳答案

以下是适用于我组成的小型管道的步骤:

  • 将UIMA管道导出为jar(Your-pipeline.jar)
  • 复制到HDFS
  • 生成庞然大物语料库(**请记住,以下所有路径均为hdfs路径**)
    hadoop jar tika / target / behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i / user / blah / -o / user / blah /
  • 使用您的管道进行处理
    hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver / user / blah / / user / blah / /apps/Your-pipeline.pear
  • 列表注释:
    hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a / user / blah /
  • 将注释转换为文本:
    hadoop jar uima / target / behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i / user / blah / -o / user / blah /
  • 关于hadoop - 使用Behemoth在Hadoop上运行UIMA作业,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/12562098/

    10-13 09:49