1.缺失值处理一般使用Python数据分析中的pandas。
2.sklearn中的缺失值处理了解一下吧。
3.Imputer流程:
1.初始化Imputer,指定”缺失值”,指定填补策略,指定行或列。
2.注:缺失值也可以是别的指定要替换的值。
3.调用fit_transform
4.关于np.nan(np.NaN):
1、 numpy的数组中可以使用np.nan/np.NaN来代替缺失值,属于float类型。
2、如果是文件中的一些缺失值,可以替换成nan,通过np.array转化成float 型的数组即可。
案例:[[1, 2], [np.nan, 3], [7, 6]],其中np.nan为缺失值。
from sklearn.preprocessing import Imputer # 已经被反对使用 import numpy as np # from sklearn.impute import SimpleImputer def im(): """ 缺失值处理 """ # NaN nan # 已经被反对使用 # im = Imputer(missing_values='NaN', strategy='mean', axis=0) im = Imputer(missing_values='NaN', strategy='mean')# axis=0 按照列进行填补 data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]]) print(data) if __name__ == '__main__': im() """ 结果: [[1. 2.] [4. 3.] [7. 6.]] 注:这个结果就是根据第一列的1和7的平均值来进行填补 程序提示不推荐使用Imputer部分被我删掉了 """