我遇到了一个SVM示例,但我听不懂。如果有人可以解释预测的工作原理,我将不胜感激。请参阅以下说明:
数据集具有10,000个具有5个属性(Sepal Width
,Sepal Length
,Petal Width
,Petal Length
,Label
)的观测值。如果标签属于positive
类,则获取I.setosa
;如果标签属于其他类,则获取negative
。
有6000个观察结果已知的观察结果(即它们属于I.setosa
类,因此它们对label属性为正)。剩余的4000个标签是未知的,因此假定标签为负数。从其余的4000个观测值中选出6000个观测值和2500个随机选择的观测值,形成10倍交叉验证的集合。然后,将SVM(10倍交叉验证)用于8500个观测值上的机器学习,并绘制ROC。
我们在哪里预测?该集合有6000个观测值,其值是已知的。其余2500个如何获得否定标签?使用SVM时,一些正面的结果会得到负面的预测。这个预言对我来说没有任何意义。为什么将这1500个观测值排除在外。
希望我的解释清楚。如果我没有清楚地解释任何内容,请告诉我。
最佳答案
我认为这个问题是语义上的:您将4000个样本集称为“未知”和“阴性”,这两者之间的关键区别在于。
如果4000个样本的标签确实未知,那么我将使用
6000个标记的样品[c.f.验证如下]。然后,通过测试N = 4000集以评估它们是否属于setosa类来生成预测。
如果相反,我们有6000个setosa和4000个(已知)非setosa,我们可以构造一个二进制
根据此数据进行分类[c.f.验证],然后用它来预测setosa与非
任何其他可用的非标记数据。
验证:通常,在模型构建过程中,您将只获取标记的子集的一部分
训练数据并使用它来配置模型。对于未使用的子集,可以将模型应用于数据(忽略标签),然后将模型预测的结果与真实的标签进行比较,以评估错误率。这适用于1类和
上述2类情况。
简介:如果您的所有数据都已标记,则通常仍会在模型验证过程中对其一部分进行预测(忽略已知标记)。
关于machine-learning - 机器学习-支持向量机,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/17161458/