hadoop上下拉不同目录里的日志文件(日志名字相同),机器太多,是用*匹配的,因为日志名字相同,导致覆盖最后只有一份,想把日志全部拉下来不覆盖怎么拉?

日志太多了,最后是用“hadoop fs -getmerge  目录 目标文件”合并到一个文件里拉下来的,这样就不会覆盖了,但是好慢。。。而且看不了运行的过程,干等。

其实不用拉日志是要去集群上跑,这样可以分片执行,但是因为提前不知道要去集群上,写的也不是map和reduce的格式,而且在中间要用接口获取数据,总之很麻烦的要生成中间文件,不能用map,reduce

有时间要好好学学hadoop
09-25 14:49