在对逻辑回归公式的推导中,我误解了最小值的概念。
这个想法是尽可能增加假设(即,正确的预测概率尽可能接近1),这反过来又要求尽可能降低成本函数$ J(\ theta)$。
现在,有人告诉我要使所有这些工作正常进行,成本函数必须是凸的。我对凸性的理解要求没有最大值,因此只能有一个最小值,即全局最小值。真的是这样吗?如果不是,请说明原因。另外,如果不是这种情况,则意味着成本函数中可能存在多个最小值,这意味着多组参数会产生越来越高的概率。这可能吗?还是可以确定返回的参数是指全局最小值,因此是最高的概率/预测?
最佳答案
我们使用凸成本函数的事实并不能保证凸问题。
凸成本函数和凸方法之间有区别。
您遇到的典型成本函数(交叉熵,绝对损失,最小二乘法)被设计为凸的。
但是,问题的凸性还取决于您使用的ML算法的类型。
线性算法(线性回归,逻辑回归等)将为您提供凸解,即它们会收敛。但是,当使用具有隐藏层的神经网络时,将不再保证您得到凸解。
因此,凸度是一种描述您的方法的度量,而不仅仅是您的成本函数!
LR是一种线性分类方法,因此每次使用它时都会遇到凸优化问题!但是,如果数据不是线性可分离的,则可能无法给出解决方案,并且在这种情况下,绝对不能为您提供良好的解决方案。