我通过带有pandas.HDFStore()的 Pandas 将大约800 GB的巨大数据帧存储到HDF5中。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想用Impala对此进行查询。是否有直接方法将这些数据解析为Parquet?还是Impala允许您直接使用HDF5? HDF5上是否还有其他数据选择?

最佳答案

我自己还没有尝试过,但是这里有一个链接,显示了如何使用Spark:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f将HDFStore转换为Parquet。

关于hadoop - 如何将HDF5文件转换为Parquet文件?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41497528/

10-13 09:48