Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding
目录
箱线图
箱线图(box plots):这些图显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第50 百分位数),长方形的顶和底分别表示第25 百分位数和第75 百分位数(或者第一四分位数、第三四分位数)。
箱线图又叫为盒须图(box and whisker plots)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的1.4 倍,四分位间距就是第75 百分位数和第25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的1.4 倍。这个盒须的1.4 倍距离是可以调整的,详见箱线图
的相关文档。
在有些情况下,盒须要比1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。
箱线图的目的:一种比打印出数据更快、更直接的发现异常点的方法,但是最后一个环数属性(最右边的盒子)的取值范围导致其他属性都被“压缩”了(导致很难看清楚)。T1、一种简单的解决方法就是把取值范围最大的那个属性删除。
T2、画箱线图之前采用将属性值归一化:因为没有实现根据取值范围自动缩放(自适应)。在画箱线图之前将属性值归一化(normalization)。此处的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1 的一个单位值与属性2 的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1 英里,以英尺为单位就是5 280 英尺。代码清单2-11 中的归一化是把属性数值都转换为均值为0、标准差为1 的分布。这是最通用的归一化。归一化计算用到了函数summary() 的结果。归一化后的效果如图2-11 所示。
注意归一化到标准差1.0 并不意味着所有的数据都在−1.0 和+1.0 之间。盒子的顶边和底边多少都会在−1.0 和+1.0 附近,但是还有很多数据在这个边界外。