我不是 100% 确定这是一个错误还是我没有做正确的事情但是如果你给 Percentile 大量的数据是相同的值(见下面的代码),评估方法需要很长时间。如果你给 Percentile 随机值评估需要相当短的时间。

如下所述,Median 是 Percentile 的子类。

Percentile java doc

private void testOne(){
  int size = 200000;
  int sameValue = 100;
  List<Double> list = new ArrayList<Double>();

  for (int i = 0; i < size; i++)
  {
    list.add((double)sameValue);
  }
  Median m = new Median();
  m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));

  long start = System.currentTimeMillis();
  System.out.println("Start:"+ start);

  double result = m.evaluate();

  System.out.println("Result:" + result);
  System.out.println("Time:"+ (System.currentTimeMillis()- start));
}


private void testTwo(){
  int size = 200000;
  List<Double> list = new ArrayList<Double>();

  Random r = new Random();

  for (int i = 0; i < size; i++)
  {
    list.add(r.nextDouble() * 100.0);
  }
  Median m = new Median();
  m.setData(ArrayUtils.toPrimitive(list.toArray(new Double[0])));

  long start = System.currentTimeMillis();
  System.out.println("Start:"+ start);

  double result = m.evaluate();

  System.out.println("Result:" + result);
  System.out.println("Time:"+ (System.currentTimeMillis()- start));
}

最佳答案

这是 2.0 和 2.1 版本之间的 known issue 并且已针对 version 3.1 进行了修复。

2.0 版确实涉及对数据进行排序,但在 2.1 版中,他们似乎已切换到 selection algorithm 。然而,a bug 在他们的实现中导致了一些具有许多相同值的数据的不良行为。基本上他们使用 >= 和 和

关于java - Apache Commons Math 2.2 百分位错误?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/5532196/

10-10 19:02