我有一个数据集,其中包含两个级别Male(M)和Female(F)的变量GENDER具有很多Missing值。我该如何处理值(value)缺失的问题?处理这些缺失值的方法有哪些?任何帮助,将不胜感激。

最佳答案

为了估计缺失值,有几种技术。我一直在为Uni的一个项目撰写有关此类方法的论文。
我将简要解释5种常用的缺失数据插补技术。在下文中,我们将考虑一个数据集,其中每一行都是一个模式(或观察值),每一列都是一个特征(或属性),假设我们要“修复”第j个特征中缺少值的给定模式(位置)。

  • 模式删除。
    如果这种模式具有至少一个缺失值,则从数据集中删除模式。
    但是,如果有大量缺少值的模式,我将不建议采用这种方法,因为数据集中的模式数量将大大减少,并且训练阶段不会令人费解。
  • 均值/众数方法。
    如果pattern在位置j上缺少值,则采用第j列的均值(如果第j个属性是连续的)或众数(如果第j个属性是分类的),并在模式的第j个中替换该均值/众数位置。显然,在均值/众数评估中,您应该仅考虑列j中的非缺失值。
  • 条件均值/众数。
    如果您有标签(即监督学习),则可以考虑使用先前的方法,但在均值/众数评估中,仅考虑第j列中与元素具有相同标签的模式中的(非缺失)元素。您尝试修复的模式。这实质上改进了先前的方法,因为您不考虑属于不同类的模式的值。
  • 热装。
    给定特定的不相似度指标,您可以测量要修复的模式与所有其他要插入的属性(在本例中为第j个属性)中不缺少值的模式之间的不相似性。从最相似的图案中选取第j个特征,然后将其替换为要修复的图案的第j个位置。
  • K最近邻。
    这类似于“热装饰”,但是您可以考虑K个最相似的模式,这些模式在我们的第j个功能中均不缺少值(value),而不是考虑最相似的模式。然后考虑这些K模式的第j个特征中最频繁的项目(模式)。

  • K最近邻居的K值可以通过交叉验证找到,可以先验设置,也可以使用经验法则值(K =实例数的平方根)。

    差异性度量实际上取决于您,但是一个常见的选择是HEOM(异构欧氏重叠度量),可以在here中找到(第2.3节)。这种不相似性度量在具有缺失值负载的数据集中非常有效,因为它还允许您处理具有缺失值的模式(显然,在您要估计的特征中不是)。
    确实重要的是,丢弃要插补的要素中缺少值的模式:如果您的差异度量返回要素j中也具有值的最相似模式,则您基本上是用另一个缺失值替换了缺失值。无意义。此示例适用于热装饰,但即使对于K个最邻近的邻居中的K个最相似的模式,您也可以扩展这种概念(例如,不幸的情况是,K个最相似的模式的第j个特征中最频繁的项也是缺少的值)。

    关于machine-learning - 数据分析中的值(value)缺失,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35680426/

    10-12 19:28