我在jira中遇到了这个page,我想知道如何获得行组的相同 View 。像这样:

apache-spark - 您如何查看HDFS中文件的行组-LMLPHP

hdfs中是否有命令可以向我显示?

最佳答案

我报告了JIRA。我用了

parquet-tools meta /path/to/file.parquet | grep "row group"

然后手动编辑输出以对齐数字。另外,您可以附加| column -t进行一些基本对齐。尽管在这种情况下,数字将左对齐而不是右对齐,但是至少它们将在另一个的下面对齐。
parquet-tools本身是parquet-mr中未记录的辅助脚本included。不用使用它,您只需致电
hadoop jar /path/to/parquet-tools-<VERSION>.jar

在Hadoop群集上或
java -jar /path/to/parquet-tools-<VERSION>.jar

本地。对于后者,您必须使用本地配置文件来构建拼花地板,即
mvn package -Plocal

这在build instructions中进行了描述。

关于apache-spark - 您如何查看HDFS中文件的行组,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53286554/

10-16 13:55