hadoop - 使用EC2-s和EFS的AWS中的ETL流程

我是一位数据工程师，在设计和创建数据集成和ELT流程方面经验丰富。以下是我的用例，我需要将流程移至aws，请问您的意见？
我要处理的文件在s3中。我需要使用Hadoop处理这些文件。我已经用 hive 编写了现有的逻辑，只需要将它们迁移到AWS。以下方法是否正确/可行？

启动一组ec2实例(最初说为5)以启用自动缩放。

创建一个EFS，并将其安装在ec2实例上。

将文件从s3作为Hadoop表复制到EFS。

在EFS中的数据之上运行配置单元查询并创建新表。

处理完成后，将最终报告表从EFS移动/导出到s3(以某种方式)。不确定是否可行，如果不可能，则整个解决方案都不可行。
6.终止EFS和EC2实例。

如果上述方法正确，那么使用EFS如何进行Hadoop编排？

谢谢，
KR

最佳答案

我不确定您是否需要自动缩放。
为什么？
假设您开始一个“大”查询，这需要大量时间和cpu。

自动缩放将启动更多实例，但是它将如何开始在新计算机上运行查询的“分数”？

运行查询之前，所有机器都必须准备就绪。只要记住它。
换句话说:只有现在可用的机器才能处理查询。

这个想法没有任何问题。
只要记住，就可以将数据保存在EFS中。

如果EFS太贵了，
请检查提供Raid 0的EBS-magnetic的选项。
您将以最低的成本获得更快的速度。

其余的一切都很好，这是进行“按需”交互式分析的方法之一。

请看看AWS Athena。

该服务允许您在s3对象上运行查询。

您可以使用Json甚至Parquet(效率更高!)

这项服务可能足以满足您的需求。

祝好运 !

关于hadoop - 使用EC2-s和EFS的AWS中的ETL流程，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/53573756/