在我的项目中,我必须读取MapReduce读取的 Parquet 文件。有很多小尺寸的 Parquet 文件。我需要一些“组合拼花地板输入格式”,该格式可以根据拆分大小组合小文件,从而使“映射器”的数量减少。请让我知道是否存在一些实用程序或任何简单的方法来执行此操作。
谢谢
最佳答案
ParquetInputFormat是FileInputFormat的子级,它支持多个文件输入。
简而言之,您只需要CombileParquetFileInputFormat
只需使用FileInputFormat.addInputPaths指定输入即可。
ParquetInputFormat的来源
https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetInputFormat.java
附言如果您有很多小的 Parquet 文件,则可能是您做错了什么。