我对集成学习(尤其是无监督学习)中的现有文献有疑问。

根据我在文献中所读的内容,将集成学习应用于无监督学习基本上可以恢复到聚类问题。但是,如果我有x个无监督的方法输出分数(类似于回归问题),是否有一种方法可以将这些结果组合为一个结果?

最佳答案

关于离群值排名和离群值的评估。 Schubert,E.,Wojdanowski,R.,Zimek,A.和Kriegel,H.P.(2012年4月)。在2012年SIAM数据挖掘国际会议论文集(第1047-1058页)中。工业和应用数学协会。


在此出版物中,我们不“正常化”异常值,但我们还建议采用一种无监督的集合成员选择策略,称为“贪婪集合”。

但是,规范化至关重要且困难。我们在分数归一化方面发布了一些较早的进展,


  解释和统一离群值。 Kriegel,H.P.,Kroger,P.,Schubert,E.和Zimek,A.(2011年4月)。在2011年SIAM数据挖掘国际会议论文集(第13-24页)中。工业和应用数学协会。


如果您不对分数进行归一化(并且最小-最大缩放比例还不够),那么除非有非常强的先决条件,否则通常将无法以有意义的方式将它们组合在一起。由于具有不同数量的要素和不同的要素比例,即使是两个不同的子空间通常也将产生无法比较的值。

在半监督合奏上也有一些工作,例如


  学习离群乐团:两全其美—在监督之下和在监督之下。 Micenková,B.,McWilliams,B.,&Assent,I.(2014)。在ACM SIGKDD 2014数据多样性下的异常值检测和描述(ODD2)研讨会上的会议记录。美国纽约州纽约(第51-54页)。


也要注意过度拟合。通过调整参数和重复评估,很容易获得一个好的结果。但这会将评估信息泄漏到您的实验中,即您倾向于过度拟合。要在很大范围的参数和数据集上执行都非常困难。以下研究的主要观察结果之一是,对于每种算法,您都会发现至少一个数据集和参数集,在其中“优于”其他数据集和参数集;但是,如果您稍微更改参数或使用其他数据集,则“高级”新方法的好处无法再现。


  关于无监督异常值检测的评估:度量,数据集和经验研究。 Campos,G.O.,Zimek,A.,Sander,J.,Campello,R.J.,Micenková,B.,Schubert,E.,...&Houle,M.E.(2016)。数据挖掘和知识发现,30(4),891-927。


因此,您将必须非常努力地进行可靠的评估。注意如何选择参数。

关于machine-learning - 无监督学习中的综合学习,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42894727/

10-12 13:44