我正在尝试设计基于UIMA的分布式可伸缩管道。我应该如何决定在Hadoop上使用UIMA DUCC或UIMA?如果我将其构建在UIMA DUCC而非Hadoop之上,反而会错过什么呢?

最佳答案

一维是应用程序特征。 Hadoop对于I / O密集型应用程序将具有很大的优势。对于需要在不同线程中运行多个管道副本以实现较高CPU利用率的大型内存应用程序,DUCC应该具有很大的优势。

另一个方面是利用UIMA与利用Hadoop。 DUCC建立在UIMA基本功能的基础上,提供了许多扩展选项,内置性能指标以及调试支持,所有这些都基于UIMA核心组件。 UIMA管道越复杂,DUCC的优势就越大;例如,复杂的处理流程可以直接在DUCC中实现,但可能必须转换以减少映射。

对于那些具有足够的Hadoop专业知识的人来说,可以将相对简单的UIMA分析轻松集成到现有的Hadoop商店中,而无需了解很多UIMA。

关于hadoop - Hadoop上的UIMA DUCC与UIMA,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29873686/

10-12 23:31