我有一个Pig脚本,我们在其中使用帮助UDF进行一些数据操作。
让我们理解一个例子。
data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;
因此,在这里我使用DUMP来确保执行以上所有语句,而不是将数据流传输到控制台。我认为DUMP的执行方式会导致与性能相关的问题。在这里,要确保数据和olddata不会从UDF返回任何内容。我如何确保这些语句在不使用DUMP的情况下执行。
谢谢。
最佳答案
您可以为此使用ILLUSTRATE运算符。
因此,只需将DUMP替换为ILLUSTRATE。还对数据集进行采样以进行测试。
data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;
关于hadoop - 长时间服用 pig 的DUMP,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36759597/