我已经搜索了所有文档,但仍然没有找到为什么在下面的文件命名约定中有前缀以及 c000 是什么:

文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-
c000.snappy.parquet

最佳答案

你应该使用“通话很便宜,给我看代码”。方法。一切都没有记录,一种方法就是代码。

考虑 part-1-2_3-4.parquet :

  • 分割/分区编号。
  • 随机 UUID,以防止不同(附加)写入作业之间发生冲突。
  • 唯一作业/任务 ID(有时不包括在内)。
  • “c”代表计数。这是文件计数器,表示过去为该特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。

  • 我是基于 this codethis code 找到的。

    关于hadoop - 谁能解释一下 c000.snappy.parquet 或 c000.snappy.orc 中的 c000 是什么意思?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49165696/

    10-12 22:29