Standford Core NLP和GATE提供了各种NLP操作,例如NER,POS标记。作为UIMA组件,可以使用诸如Tokenizer,Snowball Stemmer之类的一些NLP操作。
那么,UIMA是否可与StandfordCore NLP/GATE相提并论,或者将其包装用于管道的这类API?

最佳答案

UIMA核心框架未提供特定的NLP工具。它提供了从符合UIMA的组件构建和运行分析工作流的方法。由于要分析的数据在实际应用程序中会变得非常大,因此UIMA专注于可伸缩性,提供了诸如UIMA-ASUIMA-DUCC的分布式运行时环境。但是,UIMA不仅对大规模有用,而且对于将分析嵌入到应用程序中或在用于构建语言处理实验的科学环境中也是有用的。

UIMA组件提供了多个集合,它们提供NLP工具,通常会包装第三方解决方案,例如OpenNLP,Stanford CoreNLP等:

  • ClearTK-用于开发统计NLP组件的框架,还包括一些第三方工具的包装
  • cTAKES-从电子病历临床自由文本中提取信息
  • DKPro Core-用于NLP的UIMA组件的集合,包装了许多UIMA第三方工具
  • UIMA Addons-UIMA团队本身提供的一小组组件
  • U-Compare-集成文本挖掘/自然语言处理系统

  • 这些是撰写本文时的一些主要收藏。如果搜索UIMA组件,则可能会找到其他源。

    UIMA核心框架可与GATE嵌入式产品相媲美,减去GATE提供的任何处理资源。可以说UIMA Ruta工作台与GATE Developer工作台,或者更具体地说,与JAPE有密切的关系。

    UIMA与Stanford CoreNLP的比较不佳,因为UIMA并不专注于提供特定的NLP组件,而CoreNLP则专注于提供特定的NLP组件。

    诸如CoreNLP之类的NLP工具往往被包装为UIMA组件,以在UIMA管道中使用。

    像GATE这样的框架通常不包装为UIMA组件,但是可以包装作为GATE插件提供的特定NLP工具。

    披露:我从事Apache UIMA项目和DKPro Core项目。

    10-08 12:38