喜欢MRToolkit-非常适合在编写Hadoop作业时脱离Java。很明显,该库是为与EC2集群而不是与Amazon的 flex map /归约系统接口(interface)而编写的。是否有人对使用 flex map /归约服务器上的工具包定义的正在运行的作业有见解?从Web界面来看这并不容易,我希望避免在EC2上手动设置集群的麻烦。
我已经研究了在'streaming'选项下上传文件的方式(因为这是MRToolkit所使用的),但是Amazon期望为mapper和reducer提供单独的文件-典型的MRToolkit样式在单个文件中将它们定义为预定义Base( Map | Reduce)类。
非常感谢您的任何想法。
以撒
最佳答案
这是可行的,但不能通过Web GUI。