我有一个我想检查的客户压缩的Hadoop SequenceFile。我目前没有完整的架构信息(我正在分别处理)。
但是在过渡期间(并希望有一个通用的解决方案),我检查文件有哪些选择?
我找到了一个forqlift工具:http://www.exmachinatech.net/01/forqlift/
并尝试在文件上使用“forqlift列表”。它提示它不能为包含的自定义子类Writables加载类。因此,我将需要跟踪这些实现。
但是同时还有其他选择吗?我知道很可能无法提取数据,但是是否有一些工具可以扫描多少个键值和什么类型的键?
最佳答案
检查“Hadoop:权威指南” -Sample Code中的SequenceFileReadDemo类。序列文件中嵌入了键/值类型。使用SequenceFile.Reader.getKeyClass()和SequenceFile.Reader.getValueClass()获取类型信息。
关于apache - 如何检查缺少完整架构信息的Hadoop SequenceFile?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7560515/