日志Tcpdumps是二进制文件,我想知道我应该用于分割输入数据的hadoop的FileInputFormat ...请帮助我!
最佳答案
用户列表上有一个与此相关的主题:
http://hadoop.markmail.org/search/list:org%2Eapache%2Ehadoop%2Ecore-user+pcap+order:date-forward
基本上,格式是不可拆分的,因为您找不到在文件中任意偏移处开始的记录的开始。因此,您必须进行一些预处理,插入同步点或类似的操作。也许将较小的文件隐藏为sequencefile,然后合并较小的sequencefile?
如果结束编写可重用的内容,请考虑回馈该项目。
关于hadoop - 如何在Map Rreduce Hadoop中使用输入日志.PCAP(Binary),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1245176/