我使用sklearn的EllipticEnvelope
来查找数据集中的异常值。但我不知道如何模拟我的问题?我是否应该只使用所有数据(不分训练和测试集)并应用fit
?另外,如何获得每个数据点的outlyingness?我应该在同一个数据集上使用predict
吗?
最佳答案
正确的方法是:
将数据分为normal
和outliers
。
从normal
数据中抽取大样本作为normal_train
拟合新颖性检测模型。
创建一个测试集,其中一个样本来自normal
,该样本不用于训练(例如normal_test
),另一个样本来自outlier
(例如outlier_test
),这样test
数据的分布(normal_test
+outlier_test
)将保持总体分布。
预测此test
数据以获取常用度量(accuracy
,sensitivity
,positive-predictive-value
,等等)
真 的。我已经走了很长一段路了!
关于python - 如何应用sklearn的EllipticEnvelope找出给定数据集中的离群值?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33778802/