我不是 100% 确定这是一个错误还是我没有做正确的事情但是如果你给 Percentile 大量的数据是相同的值(见下面的代码),评估方法需要很长时间。如果你给 Percentile 随机值评估需要相当短的时间。
如下所述,Median 是 Percentile 的子类。
Percentile java doc
private void testOne(){
int size = 200000;
int sameValue = 100;
List<Double> list = new ArrayList<Double>();
for (int i = 0; i < size; i++)
{
list.add((double)sameValue);
}
Median m = new Median();
m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));
long start = System.currentTimeMillis();
System.out.println("Start:"+ start);
double result = m.evaluate();
System.out.println("Result:" + result);
System.out.println("Time:"+ (System.currentTimeMillis()- start));
}
private void testTwo(){
int size = 200000;
List<Double> list = new ArrayList<Double>();
Random r = new Random();
for (int i = 0; i < size; i++)
{
list.add(r.nextDouble() * 100.0);
}
Median m = new Median();
m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));
long start = System.currentTimeMillis();
System.out.println("Start:"+ start);
double result = m.evaluate();
System.out.println("Result:" + result);
System.out.println("Time:"+ (System.currentTimeMillis()- start));
}
最佳答案
这是 2.0 和 2.1 版本之间的 known issue 并且已针对 version 3.1 进行了修复。
2.0 版确实涉及对数据进行排序,但在 2.1 版中,他们似乎已切换到 selection algorithm 。然而,a bug 在他们的实现中导致了一些具有许多相同值的数据的不良行为。基本上他们使用 >= 和 和
关于java - Apache Commons Math 2.2 百分位错误?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5532196/