根据seaborn documentation,其箱线图方法使晶须长1.5 * IQR。但是,从该文档的图中可以看出,情况并非如此。
上下晶须不同。此外,似乎不是1.5 IQR。
有人可以阐明他们为何与众不同吗?
https://seaborn.pydata.org/generated/seaborn.boxplot.html
最佳答案
原则上,正确的假设是,如果箱图上的晶须使用四分位间距(IQR)的倍数,则它们的长度应相等。
但是,实际上有两种情况是不正确的。不幸的是,英文维基百科版本没有说明这些原因,但是让我翻译german wikipedia的解释:
晶须
源自John W. Tukey的一种可能的定义是将晶须的长度限制为最大四分位间距(1.5 * IQR)的1.5倍。
然而,在这种情况下,晶须并不精确地以该值结束,而是以仍位于该边界之内的数据中的值结束。因此,晶须的长度由数据决定,而不是由四分位间距决定。
这就是为什么晶须不必在盒子的两端都具有相同的尺寸的原因。
如果在1.5 * IQR边界之外没有值,则晶须的长度由最小值和最大值确定。否则,晶须之外的值将在图中单独标记;然后可以将这些值视为离群值。
来自同一Wikipedia页面的情节可能使这一点更加明显:
对于问题中显示的图表,第二个原因当然可以适用:即,下晶须在最低数据值的位置结束。
关于python - 晶须定义为1.5 * IQR,图中的两个晶须与python seaborn boxplot中的晶须有什么不同?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49139299/