特征缩放是强制性的吗? 什么时候使用标准化? 什么时候使用归一化?数据的分布会发生什么变化?对异常值有什么影响?模型的准确性会提高吗?-LMLPHP
以上问题也是面试中经常被问到的问题,我将在本博客中尝试通过提供合适的例子来回答上述问题。我们将使用 sklearn 的 StandardScaler 和 MinMaxScaler。

让我们考虑一个数据集,其中Age和Estimated Salary是输入特征,我们必须预测产品是否已购买(输出标签)或未购买。

看看我们数据的前 5 行。
特征缩放是强制性的吗? 什么时候使用标准化? 什么时候使用归一化?数据的分布会发生什么变化?对异常值有什么影响?模型的准确性会提高吗?-LMLPHP

什么是标准化?

标准化 或 Z-Score 归一化是特征缩放技术之一,这里特征的转换是通过从均值中减去并除以标准差来完成的。这通常称为 Z 分数归一化。结果数据的平均值为 0,标准差为 1。

特征缩放是强制性的吗? 什么时候使用标准化? 什么时候使用归一化?数据的分布会发生什么变化?对异常值有什么影响?模型的准确性会提高吗?-LMLPHP

所以现在我们已经看到了标准缩放的公式,现在我们将看看如何将它应用于我们的数据集。

特征缩放是强制性的吗? 什么时候使用标准化? 什么时候使用归一化?数据的分布会发生什么变化?对异常值有什么影响?模型的准确性会提高吗?-LMLPHP
首先,我们将数据分为训练集和测试集,并应用标准缩放器。

数据集描述:

12-04 15:38