我对要加载到HAWQ中的表的存储大小计算/估计有疑问吗?
我在HIVE中有一个30MB的表,我正在尝试使用PXF将其加载到HAWQ中,例如:
从hcatalog.default.afs_trvn_mktscn_population中选择*创建表t2表空间数据;
HAWQ中的表正在消耗369MB的存储空间吗?不管我有多少个HAWQ段,以及HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况是,即使有4个HAWQ段或1个HAWQ段,加载后表的大小也是369MB。
我可以理解,最小块大小为128MB,所以即使30MB也会使用最小128MB,但是为什么> 300MB?
您可以分享一些信息吗?
最佳答案
您的Hive表可能已通过Snappy压缩存储为ORC,而您的HAWQ表甚至未压缩。您应该在HAWQ表中使用它:
with (appendonly=true, orientation=parquet, compresstype=snappy)
关于hadoop - HAWQ表大小估计,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40802249/