我找不到关于箱形图线的终点表示什么的描述。

例如,这是直线结束处上方和下方的点值。

(我知道盒子的顶部和底部分别是第25个和第75个百分点,而中心线是第50个百分点)。我假设,由于线条上方和下方都有点,它们不代表最大/最小值。

最佳答案

箱形图结尾处的“点”表示离群值。确定点是否为离群值有许多不同的规则,但是R和ggplot使用的方法是“1.5规则”。如果数据点是:

  • 小于Q1-1.5 * IQR
  • 大于Q3 + 1.5 * IQR

  • 然后将该点归类为“异常值”。晶须定义为:
    上晶须= min(max(x),Q_3 + 1.5 * IQR)
    下晶须= max(min(x),Q_1 – 1.5 * IQR)
    其中IQR = Q_3 – Q_1,即框的长度。因此上晶须位于最大x值和Q_3 + 1.5 IQR中的较小者,
    而较低的晶须位于最小x值和Q_1 – 1.5 IQR中的较大者。
    附加信息
  • 有关替代异常值规则,请参见wikipedia boxplot页面。
  • 实际上,有多种计算分位数的方法。看一下'?quantile来描述这九种不同的方法。

  • 示例
    考虑下面的例子
    > set.seed(1)
    > x = rlnorm(20, 1/2)#skewed data
    > par(mfrow=c(1,3))
    > boxplot(x, range=1.7, main="range=1.7")
    > boxplot(x, range=1.5, main="range=1.5")#default
    > boxplot(x, range=0, main="range=0")#The same as range="Very big number"
    
    这给出了以下图:

    当我们将范围从1.7减小到1.5时,我们会缩短晶须的长度。但是,range=0是一种特例-等效于“range = infinity”

    关于r - 在ggplot2中,箱形图线的末端代表什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4946964/

    10-12 17:09