有没有一种我可以做hadoop fs -sed的选项,本质上,我试图直接在hdfs中将数据中的“\”替换为“某物”,而不必将数据放入本地并加载。

目前,我正在使用getmerge将数据导入本地,清理数据并使用copyFromlocal将其加载回hdfs。这种方式需要很多时间。因此,有没有更简单的解决方案或更快的字符数据替换方法。

最佳答案

还不清楚为什么您仍然要为此使用Hive。

Pig或Spark是更好的选择,不需要明确的数据架构。

参见Pig REPLACE function

无论如何,Hadoop CLI都没有sed选项

另一个选项是NiFi,但这需要更多的设置,并且对于此任务而言过于严格。

07-25 22:45
查看更多