1.缺失值处理一般使用Python数据分析中的pandas。

2.sklearn中的缺失值处理了解一下吧。

3.Imputer流程:

  1.初始化Imputer,指定”缺失值”,指定填补策略,指定行或列。

  2.注:缺失值也可以是别的指定要替换的值。

  3.调用fit_transform

4.关于np.nan(np.NaN):

 1、 numpy的数组中可以使用np.nan/np.NaN来代替缺失值,属于float类型。

 2、如果是文件中的一些缺失值,可以替换成nan,通过np.array转化成float 型的数组即可。

案例:[[1, 2], [np.nan, 3], [7, 6]],其中np.nan为缺失值。

from sklearn.preprocessing import Imputer # 已经被反对使用
import numpy as np

# from sklearn.impute import SimpleImputer


def im():
    """
    缺失值处理

    """
    # NaN nan
    # 已经被反对使用
    # im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    im = Imputer(missing_values='NaN', strategy='mean')# axis=0 按照列进行填补
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)

if __name__ == '__main__':
    im()


"""
结果:
[[1. 2.]
 [4. 3.]
 [7. 6.]]

注:这个结果就是根据第一列的1和7的平均值来进行填补

      程序提示不推荐使用Imputer部分被我删掉了

"""

  

  

01-10 16:50