我知道EC2更加灵活,但是在EMR上需要做更多的工作。但是,在成本方面,如果使用EC2,则可能需要将EBS卷附加到EC2实例,而AWS只是从S3流式传输数据。因此,即使要为EMR也必须为EC2付费,也要在AWS计算器上计算数字,但EMR却比EC2便宜?我在这里错了吗?
当然,带有EBS的EC2可能更快,但是值得吗?

谢谢,
马特

最佳答案

EMR为您做了很多您无法在EC2上的标准Hadoop上找到的事情。一些特别重要的包括

  • 将Hadoop日志从您的计算机复制到S3。这对于关闭群集后调试错误非常有用。
  • 正在运行多个MapReduce,Pig或Hive作业的作业流
  • 根据您选择的硬件大小设置合理的配置默认值
  • 访问竞价型实例以获得更便宜的计算
  • 能够动态调整集群大小

  • 您还将发现,EMR S3文件系统比Apache Hadoop打包的标准文件系统更快,更可靠。它支持分段上传,并且流直接写入S3,而不是先缓冲到磁盘。有关更多信息,请参见Tip #5

    此外,如果您决定直接使用EC2,则建议对节点使用实例存储而不是EBS。确实没有理由为Hadoop支付EBS的额外费用。您会注意到,EMR集群也都在实例存储节点上运行。

    关于hadoop - AWS上的EMR与EC2/Hadoop,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19129440/

    10-16 04:07