我想加快 hive 的进程,
但我不知道如何
做吧。
数据约为200GB,文本数据约为3亿行,
我事先将其拆分为50个文件,那么1个文件约为4GB。
我想得到1个文件作为排序的结果,然后选择reducer的数量为1而mapper的数量为50。
数据的每一行都由单词和频率组成。
应当将相同的单词归为一组,并对其频率进行求和。
所有文件都是gzip文件。
需要几天的时间才能完成此过程,
我想加快
如果可以的话,要几个小时。
我应该更改哪个参数以加快该过程?

最佳答案

谢谢您的回复,
是的,我定义了指向HDFS位置的外部Hive表。
我显示我的伪代码,

创建外部表A count int,字串,
以'\ t'结尾的行格式分隔字段,
位置“HDFS路径”;

选择计数,从A组中按单词desc按单词排序;

关于hadoop - 如何加快 hive 中的排序,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52398734/

10-12 19:05