根据此Cloudera post,Snappy IS可拆分。
但是从Hadoop权威指南来看,Snappy是不可拆分的。
网上也有一些冲突信息。有人说它是可拆分的,有人说不是。
最佳答案
两者都是正确的,但级别不同。
根据Cloudera博客http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/
这意味着,如果使用Snappy压缩了整个文本文件,则文件不可拆分。但是,如果使用Snappy压缩文件中的每个记录,则文件可以是可拆分的,例如在带有块压缩的Sequence文件中。
更清楚地说,是不一样的:
<START-FILE>
<START-SNAPPY-BLOCK>
FULL CONTENT
<END-SNAPPY-BLOCK>
<END-FILE>
比
<START-FILE>
<START-SNAPPY-BLOCK1>
RECORD1
<END-SNAPPY-BLOCK1>
<START-SNAPPY-BLOCK2>
RECORD2
<END-SNAPPY-BLOCK2>
<START-SNAPPY-BLOCK3>
RECORD3
<END-SNAPPY-BLOCK3>
<END-FILE>
快照块为而不是可拆分的,但具有快照块的文件为拆分表。
关于hadoop - Snappy是可拆分的还是不可拆分的?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32382352/