我使用sklearn的EllipticEnvelope来查找数据集中的异常值。但我不知道如何模拟我的问题?我是否应该只使用所有数据(不分训练和测试集)并应用fit?另外,如何获得每个数据点的outlyingness?我应该在同一个数据集上使用predict吗?

最佳答案

正确的方法是:
将数据分为normaloutliers
normal数据中抽取大样本作为normal_train拟合新颖性检测模型。
创建一个测试集,其中一个样本来自normal,该样本不用于训练(例如normal_test),另一个样本来自outlier(例如outlier_test),这样test数据的分布(normal_test+outlier_test)将保持总体分布。
预测此test数据以获取常用度量(accuracysensitivitypositive-predictive-value,等等)
真 的。我已经走了很长一段路了!

关于python - 如何应用sklearn的EllipticEnvelope找出给定数据集中的离群值?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33778802/

10-12 18:13
查看更多