在监督学习中,我有典型的训练/测试拆分来学习算法,例如回归或分类。关于无监督学习,我的问题是:培训/考试分开是否必要且有用?如果是,为什么?

最佳答案

那么这取决于问题,用于解决特定问题的数据集的形式和无监督算法的类。

大致:-
降维技术通常通过计算重建误差来测试,因此我们可以使用k倍交叉验证程序

但是在聚类算法上,我建议进行统计测试以测试性能。也没有什么费时的技巧来拆分数据集并使用有意义的类手动标记测试集并进行交叉验证

无论如何,在监督数据上使用非监督算法,那么它总是很好的交叉验证

总体而言:-无需在训练测试集中拆分数据,但如果可以的话,总会更好

这篇文章解释了交叉验证如何成为无监督学习的好工具
http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/,全文在这里可用http://arxiv.org/pdf/0909.3052.pdf

https:///www.researchgate.net/post/Which_are_the_methods_to_validate_an_unsupervised_machine_learning_algorithm

关于machine-learning - 在无监督学习中进行训练/测试拆分是否必要/有用?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31673388/

10-12 21:55