我在配置单元中创建了UDAF,它将返回列中的第一个重复编号。
表:firstrepeatingnumber,列:indata,数据:
55
125
1561234
123
12
1
-123
321
124
55
123
15236
32
125
44
UDAF:practise.FirstRepeatingNumber
UDAF:
package practise;
import java.util.ArrayList;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
@SuppressWarnings("deprecation")
public class FirstRepeatingNumber extends UDAF{
class firstRepeatingNumberUDAFEvaluator implements UDAFEvaluator{
int len=0,number=0,index=0,i=0,j=0,arrLength=0,set=0,ans=0;
ArrayList<ArrayList<Integer>> arr = new ArrayList<ArrayList<Integer>>();
ArrayList<Integer> arr2 = new ArrayList<Integer>();
@Override
public void init() {
for(i=0;i<10;i++)
arr.add(new ArrayList<Integer>());
}
public boolean iterate(int value){
if(set==1)
return true;
index=value%10;
try{arrLength=arr.get(index).size();}
catch(Exception ex){}
for(j=0;j<arrLength;j++){
if(value==arr.get(index).get(j)){
ans=value;
set=1;
return true;
}
}
if(set==0)
{
try{
arr2=arr.get(index);
}
catch(Exception ex){
}
arr2.add(value);
arr.set(index, arr2);
}
return true;
}
public int terminate(){
return ans;
}
}
}
这是函数创建:
create function GetFirstReNumber AS 'practise.FirstRepeatingNumber';
当我运行选择查询时:
select GetFirstReNumber(indata) as ans from firstrepeatingnumber;
它给出错误:
对于此UDAF,此数据集的预期答案为55。我无法理解为什么执行功能时会出错。
最佳答案
您应检查“indata”列的数据类型,该类型应为int
。
奇怪的是我没有看到terminatePartial()
和merge()
函数的实现