我正在使用Scikit对大量数据进行一些预测。数据很宽,但不是很长,因此我想对数据的各个部分设置权重。如果我知道数据的某些部分更重要,那么其他部分我应该如何告知SCikit,或者这是否打破了整个机器学习方法进行一些预教学。

最佳答案

这可能取决于您使用的机器学习算法-许多人将自己发现功能的重要性(通过随机森林中的feature_importances_属性进行详细说明)。

如果您使用的是基于距离的量度(例如k-means,knn),则可以通过相应地缩放每个特征的值来手动对特征进行加权(尽管scikit可能会进行一些归一化...)。

另外,如果您知道某些功能确实没有太多信息,则可以简单地消除它们,尽管您可能会丢失这些功能可能带来的诊断价值。 scikit中有一些用于feature selection的工具可能有助于做出这种判断。

关于python - Scikit学习可变偏差,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27436544/

10-12 23:43