我有一个在tarball(access.logs.tar.gz)中的日志文件加载到我的hadoop集群中。我想知道他们是如何将其直接加载到 pig 上而又不去皮的吗?

最佳答案

PigStorage将识别出文件已压缩(通过.gz扩展名,它实际上是在PigInputInputFormat扩展的TextInputFormat中实现的),但是此后,您将处理tar文件。如果您能够处理tar中文件之间的标题行,则可以按原样使用PigStorage,否则您需要编写自己的PigTextInputFormat扩展名以处理剥离每个文件之间的tar标题行

关于hadoop - 如何将tarball加载到 pig ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10185007/

10-12 23:01