我正在使用scikit-learn,并希望通过RBF内核运行SVR。我的数据集很大,因此从阅读其他文章开始,建议我使用SGD回归和RBF近似。有趣的是,与仅使用SGD相比,将SGD与RBF结合使用会得到更差的结果。我想这可能是由于错误的参数值。我尝试为RBF采样器循环遍历gamma和n_components,并尝试了一些SGD regessor参数,但无济于事。我还输出了训练和交叉验证错误,两者大致相同,因此我认为这是一个偏见问题。
最佳答案
您为什么认为RBF特征空间必须具有比线性特征空间更高的精度?尽管通常是这样,但没有理由相信这一定是真的。 RBF内核在整个类别的现实世界数据上做得不好
除此之外,还有许多其他问题可以被询问/探索。如果没有其他人使用/浏览您的数据,通常无法提出此类问题。如:
原始特征值是否正确归一化?
使用的近似方法是否适合数据量/数据类型
问题是病态还是病态?如果是这样-我们的近似值是导致误差的原因吗?
原始功能是否足以使用RBF?
测试的参数值是否适合我的数据及其缩放?
当前获得的错误率是多少?对于可行的错误率,合理的期望是什么?
关于machine-learning - SciKit SGD回归器RBF内核逼近,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20007248/