我欣赏有关如何将数据从本地Windows服务器流传输到持久EMR群集的想法?
一些背景
我想运行一个运行MR作业的持久群集,就像可用的WordCount示例一样。我想将文本从本地Windows Server流传输到群集,并由正在运行的作业对其进行处理。
我审阅的所有流WordCount示例都始终从S3中的静态文本文件开始,并且不涉及如何实现任何东西来生成流。
是否需要分两部分处理?
我已经看到Logstash之类的工具,它们倾向于在本地服务器上运行代理,这些代理会拖延Weblog的结尾并进行传输。
您可能会说,我是Windows专家,涉足EMR和Linux。随时让我知道是否有某种很酷的命令行工具已经做到了。
提前致谢。
最佳答案
当前EMR仅支持MR,Hive,Pig,HBase和Impala。 MR / Hive / Pig以面向批处理的方式处理数据,并且数据无法流式传输到它们。 HBase是NoSQL DB,而Impala用于交互式即席查询。
为了处理流数据,还有很多其他选项,例如Storm,Samza,S4。来自AWS的Kinesis最近已移至GA。
关于hadoop - 如何将数据流传输到EMR群集,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20668314/