本文介绍了使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我每15分钟运行一次AWS Glue ETL作业,每次在S3中生成1个实木复合地板文件.

I have AWS Glue ETL Job running every 15 mins that generates 1 parquet file in S3 each time.

我需要创建另一个作业以在每个小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个实木复合地板文件合并为1个单个实木复合地板文件.

I need to create another job to run end of each hour to merge all the 4 parquet file in S3 to 1 single parquet file using the AWS Glue ETL pyspark code.

有人尝试过吗?建议和最佳实践?

Any one have tried it? suggestions and best practies?

提前谢谢!

推荐答案

嗯..一个简单的选择就是将其转换为spark数据框

well.. an easy option would be to convert it into a spark dataframe

1)将实木复合地板读入动态框架(或者更好的是,将其读取为spark数据框架)2)sourcedf.toDF().repartition(1)

1) read the parquet into a dynamic frame (or better yet, just read it as spark dataframe)2) sourcedf.toDF().repartition(1)

这篇关于使用AWS Glue ETL python spark(pyspark)在AWS S3中将多个实木复合地板文件合并为单个实木复合地板文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-24 23:37