根据:
http://www.datastax.com/docs/1.0/ddl/column_family#about-column-family-compression
RDBMS看到压缩导致性能下降的原因是,必须在磁盘上查找被过度写入的数据,对其进行解压缩、过度写入,然后重新压缩。另一方面,cassandra可以看到读写性能的提高,因为sstable是不可变的,所以没有记录被过度写入,因此开销比压缩的rdbms小得多。
我想知道,在卡桑德拉数据存储继续增长的情况下,从长远来看,这意味着什么?似乎唯一的结果是对更多磁盘空间的需求不断增长,这是正确的吗?

最佳答案

周期性的卡桑德拉将对你现有的Stabess进行压缩处理。压缩将多个sstable合并到一个新的更大sstable中,丢弃废弃的数据。压缩完成后,cassandra将(最终)删除旧的sstables。
因此,如果数据集的大小是稳定的,那么sstable的大小就不会无限增长。The Cassandra wiki contains more information on compaction

10-06 14:16