有没有一种我可以做hadoop fs -sed的选项,本质上,我试图直接在hdfs中将数据中的“\”替换为“某物”,而不必将数据放入本地并加载。
目前,我正在使用getmerge将数据导入本地,清理数据并使用copyFromlocal将其加载回hdfs。这种方式需要很多时间。因此,有没有更简单的解决方案或更快的字符数据替换方法。
最佳答案
还不清楚为什么您仍然要为此使用Hive。
Pig或Spark是更好的选择,不需要明确的数据架构。
参见Pig REPLACE
function
无论如何,Hadoop CLI都没有sed
选项
另一个选项是NiFi,但这需要更多的设置,并且对于此任务而言过于严格。