我有一个Pig脚本,我们在其中使用帮助UDF进行一些数据操作。

让我们理解一个例子。

data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;

因此,在这里我使用DUMP来确保执行以上所有语句,而不是将数据流传输到控制台。我认为DUMP的执行方式会导致与性能相关的问题。在这里,要确保数据和olddata不会从UDF返回任何内容。我如何确保这些语句在不使用DUMP的情况下执行。

谢谢。

最佳答案

您可以为此使用ILLUSTRATE运算符。



因此,只需将DUMP替换为ILLUSTRATE。还对数据集进行采样以进行测试。

data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;

关于hadoop - 长时间服用 pig 的DUMP,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36759597/

10-12 23:48