我正在包含超过28K分区的配置单元表上运行MSCK REPAIR TABLE表名称,并且每10分钟将收到一个分区。

当我们每10分钟在此表上运行MSCK REPAIR TABLE时,这会花费很多时间

有人可以建议为什么要花更多时间吗? (即超过5-10分钟)

提前致谢。

hive 版本:1.1.0

最佳答案

这是非常不好的做法。
无论目录是否已映射到分区,MSCK REPAIR仍需要获取所有目录的列表以及所有分区的列表,并进行比较。
相反,您应该在每次添加目录时使用alter table ... add partition ...添加分区。

关于hadoop - MSCK REPAIR TABLE表名称需要很长时间,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44599976/

10-16 21:30