我正在AWS EMR生态系统中工作。
我在寻找重新分配awh firehose输出的智能方法:
s3:// bucket / YYYY / MM / DD / HH
转换为蜂巢分区格式
s3:// bucket / dt = YY-MM-DD-HH
有什么建议?
谢谢,
奥米德
最佳答案
我们已经使用S3DistCp解决了这个问题。我们每小时进行一次数据聚合,按模式分组,然后输出到适当前缀的目录。
这绝对是Firehose所缺少的功能,并且目前还没有办法仅使用Firehose来做到这一点。
http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html