This question already has an answer here:
file formats that can be read using PIG

(1个答案)


3年前关闭。




我是Apache Pig的新手。

我不确定Pig可以使用哪种输入文件格式。

例如,Impala上提供了Parquet,Text,Avro,RCFile和SequenceFile。 (请参阅:How Impala Works with Hadoop File Formats)

我猜文本文件还可以,因为数据加载示例正在使用.log文件。 (请参阅:Getting Started)
我也找到了AvroStorage page,因此Avro可用。

然后,Parquet,RCFile,SequenceFile等如何?或者,我有什么问题吗?

请告诉我,谢谢。

最佳答案

使用built-in functions1.4 version,您可以阅读以下内容:

  • BinStorage
  • JsonLoader,JsonStorage
  • PigDump
  • PigStorage
  • TextLoader
  • HBaseStorage
  • AvroStorage
  • TrevniStorage
  • AccumuloStorage
  • OrcStorage

  • 对于一些加载程序,使用gzip和bzip compression support

    您可以使用HCatalog从任何其他Hadoop组件读取数据。

    以及piggybank库中的许多其他加载器。

    另外,您可以编写自己的loader

    关于apache - Apache Pig提供哪种文件格式? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41757573/

    10-12 16:55
    查看更多