根据此Cloudera post,Snappy IS可拆分。



但是从Hadoop权威指南来看,Snappy是不可拆分的。
hadoop - Snappy是可拆分的还是不可拆分的?-LMLPHP

网上也有一些冲突信息。有人说它是可拆分的,有人说不是。

最佳答案

两者都是正确的,但级别不同。

根据Cloudera博客http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/



这意味着,如果使用Snappy压缩了整个文本文件,则文件不可拆分。但是,如果使用Snappy压缩文件中的每个记录,则文件可以是可拆分的,例如在带有块压缩的Sequence文件中。

更清楚地说,是不一样的:

<START-FILE>
  <START-SNAPPY-BLOCK>
     FULL CONTENT
  <END-SNAPPY-BLOCK>
<END-FILE>


<START-FILE>
  <START-SNAPPY-BLOCK1>
     RECORD1
  <END-SNAPPY-BLOCK1>
  <START-SNAPPY-BLOCK2>
     RECORD2
  <END-SNAPPY-BLOCK2>
  <START-SNAPPY-BLOCK3>
     RECORD3
  <END-SNAPPY-BLOCK3>
<END-FILE>

快照块为而不是可拆分的,但具有快照块的文件为拆分表

关于hadoop - Snappy是可拆分的还是不可拆分的?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32382352/

10-16 16:17