是否可以通过uber/petastorm将N维数组存储到Parquet中?
最佳答案
是。 Petastorm在标准Apache Parquet格式的顶部提供了一个自定义的编解码器层和一个模式扩展。 n维数组/张量将被序列化为二进制blob字段。从用户的角度来看,它们看起来像本机类型,取决于您使用的环境(纯Python / pyspark:numpy / array,Tensorflow中的tf.Tensor或PyTorch中的Torch Tensors)。
这里有一些易于遵循的示例:https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset