我有一个场景,我将逐行传递到配置单元UDF,并且需要对每一行执行一些验证。
这些验证是使用一些预定义的元数据执行的,我将需要从外部资源加载这些元数据。
我的问题是我可以将此元数据仅在init中加载一次并将其应用于所有行。在加载时,每行每次的元数据都会大大降低性能。
最佳答案
除非该元数据发生很大变化,否则我认为您最好的选择是将该元数据保留在HDFS中。在构造函数中读取它,然后您将不必读取它,除非每次映射器启动时。
关于hadoop - 跨通用UDF Hive保存状态,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26241670/