我正在包含超过28K分区的配置单元表上运行MSCK REPAIR TABLE
表名称,并且每10分钟将收到一个分区。
当我们每10分钟在此表上运行MSCK REPAIR TABLE
时,这会花费很多时间
有人可以建议为什么要花更多时间吗? (即超过5-10分钟)
提前致谢。
hive 版本:1.1.0
最佳答案
这是非常不好的做法。
无论目录是否已映射到分区,MSCK REPAIR
仍需要获取所有目录的列表以及所有分区的列表,并进行比较。
相反,您应该在每次添加目录时使用alter table ... add partition ...
添加分区。
关于hadoop - MSCK REPAIR TABLE表名称需要很长时间,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44599976/