喜欢MRToolkit-非常适合在编写Hadoop作业时脱离Java。很明显,该库是为与EC2集群而不是与Amazon的 flex map /归约系统接口(interface)而编写的。是否有人对使用 flex map /归约服务器上的工具包定义的正在运行的作业有见解?从Web界面来看这并不容易,我希望避免在EC2上手动设置集群的麻烦。

我已经研究了在'streaming'选项下上传文件的方式(因为这是MRToolkit所使用的),但是Amazon期望为mapper和reducer提供单独的文件-典型的MRToolkit样式在单个文件中将它们定义为预定义Base( Map | Reduce)类。

非常感谢您的任何想法。

以撒

最佳答案

这是可行的,但不能通过Web GUI。

  • 下载并安装Ruby Client
  • 创建集群:elastic-mapreduce --create --alive [参数以调整集群大小]
  • 确认您的Elastic Map Reduce Master安全组已打开端口22
  • 通过SSH进入主节点
  • 使用git / scp复制您的应用程序代码
  • 运行您的应用程序
  • 08-28 05:02