我很困惑,为什么当使用Pig在Hadoop中处理数据时,为什么我们需要在Hadoop HDFS之上另外一个存储层PigStorage?并且存储在PigStorage中的文件是否分发了?谁能帮忙解释一下吗?
谢谢。
最佳答案
PigStorage是,而不是。它没有存储在任何地方;它读取并加载纯文本文件。
将LOAD
转换为Avro或ORC几乎总是更好
它只是文件系统数据上的别名和架构的元数据(文件系统可以不仅仅是HDFS)
A = LOAD '/path/file.txt' USING PigStorage() // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage() // store ORC back on same filesystem
关于hadoop - PigStorage如何在Hadoop中使用,为什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/61952927/