我欣赏有关如何将数据从本地Windows服务器流传输到持久EMR群集的想法?

一些背景

我想运行一个运行MR作业的持久群集,就像可用的WordCount示例一样。我想将文本从本地Windows Server流传输到群集,并由正在运行的作业对其进行处理。

我审阅的所有流WordCount示例都始终从S3中的静态文本文件开始,并且不涉及如何实现任何东西来生成流。

是否需要分两部分处理?

  • 首先将数据获取到S3
  • 将其流式传输到EMR集群吗?

  • 我已经看到Logstash之类的工具,它们倾向于在本地服务器上运行代理,这些代理会拖延Weblog的结尾并进行传输。

    您可能会说,我是Windows专家,涉足EMR和Linux。随时让我知道是否有某种很酷的命令行工具已经做到了。

    提前致谢。

    最佳答案

    当前EMR仅支持MR,Hive,Pig,HBase和Impala。 MR / Hive / Pig以面向批处理的方式处理数据,并且数据无法流式传输到它们。 HBase是NoSQL DB,而Impala用于交互式即席查询。

    为了处理流数据,还有很多其他选项,例如StormSamzaS4。来自AWS的Kinesis最近已移至GA。

    关于hadoop - 如何将数据流传输到EMR群集,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20668314/

    10-10 20:20
    查看更多