我们应在多大程度上填充数据集中某个要素的缺失值,以免该要素变得多余?

我有一个最多可包含42000个观测值的数据集。缺少大约20000、35000和7000值的三个功能。我是否仍应通过填充这些缺失值来使用它们,或者转储这三个功能?

在给定某个功能缺失值的数量的情况下,我们如何确定保留或转储该功能的阈值?

最佳答案

通常,您可以对数据集中最近的样本的缺失值进行插值,我喜欢这本关于缺失值http://pandas.pydata.org/pandas-docs/stable/missing_data.html的熊猫手册,它列出了许多可用于对数据集已知部分的缺失值进行插值的技术。

但是对于您的情况,我认为最好删除这两个第一个特征,因为我怀疑缺失的值是否可以进行很好的插值,当缺失的值如此之多时,几乎占所有值的一半以上。

但是您可以尝试使用缺少的值来修复第三个功能。

07-24 09:52
查看更多