我有两个脚本,用于解析原始日志中的数据并将其写入HIVE中的ORC表。一个脚本创建更多的列,而另一个更少。两个表均由date
字段分区。
结果,我的ORC表具有不同大小的文件。
列数较大的表包含许多小文件(每个分区内每个文件约4MB),列数较少的表包含少量大文件(每个分区内每个文件约250MB)。
我想它的发生是由于ORC中的stripe.size设置。但是我不知道如何检查现有表的 strip 大小。诸如“show create”和“describe”之类的命令不会显示任何自定义设置,这意味着表的 strip 大小应等于256 MB。
我正在寻找任何建议来检查stripe.size是否存在现有的ORC表。
或说明ORC表中的文件大小如何取决于该表中的数据。
附注:稍后使用Map Reduce从该表中读取数据时,这很重要,并且具有大文件的表的还原器数量很少。
最佳答案
尝试使用Hive ORC File Dump Utility:ORC File Dump Utility。
关于hadoop - hive 。检查现有ORC存储的 strip 大小,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36429199/