在hadoop中,我只是使用这两种格式来评估配置单元查询的性能。当我对存储为TEXT文件的表进行查询时,我的结果比存储为Sequence File的结果早给了我。但是不应该这样吗?另外,仅供引用,我先将数据加载到TEXT File表中,然后将数据传输到SEQUENCEFILE表中。

创建表文本(acid int,值字符串,id int)
行格式由'〜'终止的字段
存储为文本文件;

创建表seq(acid int,value string,id int)
存储为序列文件;

加载数据本地inpath'-----'覆盖到表文本中;

插入到表seq中,从文本中选择*;

Text FILE :
Time taken: 36.284 seconds
       Vs
SequenceFile :
Time taken: 42.446 seconds

Text FILE :
Time taken: 22.547 seconds
      Vs
SequenceFile :
Time taken: 25.547 seconds

最佳答案

哪一个速度更快取决于许多因素,序列文件的优点是您可以压缩它们,并且文件仍可拆分,而如果压缩​​文本文件,它们将不再可拆分(除非您使用LZO)。

10-07 19:00
查看更多