我正在构建具有数百个功能的xgboost模型。对于彼此高度相关(皮尔逊相关)的要素,我正在考虑使用要素重要性(通过增益进行测量)来删除重要性较低的要素。
我的问题:
1:相关性影响/偏向是否具有重要性(通过增益进行测量)?
2:是否有什么好的方法可以删除ML模型中高度相关的功能?
例如:a的重要性= 120,b的重要性= 14,corr(a,b)= 0.8。我正在考虑删除b,因为它的重要性= 14。但这是正确的吗?
谢谢。
最佳答案
关联肯定会影响功能的重要性。这意味着,如果功能高度相关,则将所有功能都保留下来将具有很高的冗余度。因为两个特征是相关的,所以一个改变会改变另一个。因此,没有必要让它们保持正常状态吗?由于它们肯定可以相互代表,并且使用其中的几个,您可以很好地对数据进行分类。
因此,为了删除高度相关的功能,您可以:
使用PCA减少尺寸,或者
使用决策树查找重要功能,或者
您可以根据自己的知识手动选择功能(如果有的话)
可能)哪些功能更有希望帮助您进行分类
您的数据,或者
您可以手动将某些功能组合为新功能,以便
说一个功能可能消除了告诉另一组功能的必要性
可以从单个特征中推断出可能存在的特征
特征。
关于machine-learning - 相关性会影响ML模型的重要性吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56959596/