我知道,对于通用存储格式,必须支持嵌套结构。但是,在平面数据的情况下,似乎记录的粉碎和汇编(以及可能需要额外的存储用于定义和重复级别)的开销似乎是多余的。
开销可以忽略不计吗?是否有其他可用的列式存储格式?
最佳答案
我认为,无论是否使用该格式的文件都支持算法,仅具有结构化文件类型的好处都比使用纯文本文件更好。
XML文件可以具有架构,但是太冗长,并且不包含诸如Parquet之类的列统计信息。
ORC,RCFile和RecordIO是用于存储的备用列格式。
Apache Arrow是内存中的列式格式