我很困惑,为什么当使用Pig在Hadoop中处理数据时,为什么我们需要在Hadoop HDFS之上另外一个存储层PigStorage?并且存储在PigStorage中的文件是否分发了?谁能帮忙解释一下吗?

谢谢。

最佳答案

PigStorage是,而不是。它没有存储在任何地方;它读取并加载纯文本文件。

LOAD转换为Avro或ORC几乎总是更好

hadoop - PigStorage如何在Hadoop中使用,为什么?-LMLPHP

它只是文件系统数据上的别名和架构的元数据(文件系统可以不仅仅是HDFS)

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem

关于hadoop - PigStorage如何在Hadoop中使用,为什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/61952927/

10-12 23:01