我在具有8个核心和8 GB RAM的Windows虚拟机上测试了我的UDF。我创建了约2 GB的5个文件,并在修改“mapred.tasktracker.map.tasks.maximum”后运行了Pig脚本。
以下运行时和统计信息:
mapred.tasktracker.map.tasks.maximum = 2duration = 20 min 54 sec
mapred.tasktracker.map.tasks.maximum = 4duration = 13 min 38 sec and about 30 sec for task
35% better
mapred.tasktracker.map.tasks.maximum = 8duration = 12 min 44 sec and about 1 min for task
only 7% better
为什么更改设置时会有这么小的改进?有任何想法吗?约伯分为145个任务。
![4个插槽] [1]
![8个插槽] [2]
最佳答案
几个观察:
关于performance - Hadoop中的UDF优化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20069848/