我有json输入文件,用于存储调查数据(来自客户的反馈)。

  • json文件中的列可能会有所不同

    例如在第一季度可以
    是70列,在下一季度它可以有100列,依此类推。
  • 我想将所有这些季度数据存储在hdfs的同一表中。

  • 有没有一种方法可以删除或通过更改架构重新创建表来维护历史记录?

    如果列长度减少,它将如何运行,假设在第三季度,我们仅获得30列。

    最佳答案

    首先要指出的是,在HDFS中,您不只是存储表。您可以在文件顶部的配置单元等中创建表。

    一些格式支持读取时的模式合并,例如parquet
    通常,您将能够使用超列集重新创建表。在Impala中,您具有schema evolution的类似功能。

    关于pandas - 如何使用Hadoop维护其架构每季度更改一次的历史数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/62165080/

    10-12 22:40