作为机器学习重要的一环,特征工程也遵循二八法则。即80%的时间用来处理数据和特征,20%用来进行模型训练和优化(可能nlp和cv领域除外)。特征工程主要包括以下几个方面:
- 特征清洗:处理数据中的对齐、异常值和缺失值,提升数据质量。
- 特征处理:将特征变换成适当的形式,方便机器处理和理解。
- 特征抽取:从现有特征中派生出有价值的额外特征(跟特征处理不同,特征抽取一般要保留原始特征,而特征处理一般不会保留原有特征,这两者界限比较模糊)。
- 特征选择:从大量特征中选取价值最高的特征组,减少模型计算量,一定程度上减少过拟合。
- 特征压缩(降维):将大量稀疏的特征映射到少量稠密的特征空间(实际业务中应用较少,另外经过映射后,特征的解释性变弱,不利于debug)。因此后面的介绍中该节略去。
参考资料:
- https://segmentfault.com/a/1190000024522693