- import numpy as np
- import matplotlib.pyplot as plt
- from matplotlib.collections import LineCollection
- from sklearn.linear_model import LinearRegression
- from sklearn.isotonic import IsotonicRegression
- from sklearn.utils import check_random_state
- n = 100
- x = np.arange(n)
- rs = check_random_state(333)
- y = rs.randint(-50, 50, size=(n,)) + 50. * np.log(1 + np.arange(n))
- ###############################################################################
- # Fit IsotonicRegression and LinearRegression models
- #分别用iR、LR拟合
- ir = IsotonicRegression()
- y_ = ir.fit_transform(x, y)
- lr = LinearRegression()
- lr.fit(x[:, np.newaxis], y) # x needs to be 2d for LinearRegression
- ###############################################################################
- # plot result
- segments = [[[i, y[i]], [i, y_[i]]] for i in range(n)]
- lc = LineCollection(segments, zorder=0)
- lc.set_array(np.ones(len(y)))#把它变成arange(100)看看啥效果噢
- lc.set_linewidths(0.5 * np.ones(n))
- fig = plt.figure()
- plt.plot(x, y, 'r.', markersize=12)
- plt.plot(x, y_, 'g.-', markersize=12)
- plt.plot(x, lr.predict(x[:, np.newaxis]), 'b-')
- plt.gca().add_collection(lc)
- plt.legend(('Data', 'Isotonic Fit', 'Linear Fit'), loc='lower right')
- plt.title('Isotonic regression')
- plt.show()
模型预测结果校准——Isotonic regression
Isotonic Regression: the method used by Zadrozny and Elkan (2002; 2001) to calibrate predictions from boosted naive bayes, SVM, and decision tree models.[1]
Zadrozny and Elkan (2002; 2001) successfully used a more general
method based on Isotonic Regression (Robertson et al.,1988) to calibrate predictions from SVMs, Naive Bayes, boosted Naive Bayes, and decision trees. This method is more general in that the only restriction is that the mapping function be isotonic (monotonically increasing).[1]
Isotonic regression(保序回归) 是一种非参数化方法(The non-parametric approach);
假设模型的预测结果记为fi,真实目标记为yi,那么Isotonic Regression的基本假设为:
Isotonic Regression的一种求解算法是pair-adjacent violators algorithm(简称PAV算法),时间复杂度是O(N),主要思想是通过不断合并、调整违反单调性的局部区间,使得最终得到的区间满足单调性。PAV算法也是scikit-learn中isotonic regression库的求解算法。该算法的动态效果图可参阅文献[2]。
One algorithm that finds a stepwise constant solution for the Isotonic Regression problem is pair-adjacent violators (PAV) algorithm (Ayer et al., 1955) presented in Table 1.
Isotonic regression 的通俗化解释:
- 问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小?
- 保序回归法:从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,直到该序列所有元素的平均值小于或等于下一个待吸收的元素。
- 举例:
- 原始序列:<9, 10, 14>
- 结果序列:<9, 10, 14>
- 分析:从9往后观察,到最后的元素14都未发现乱序情况,不用处理。
- 原始序列:<9, 14, 10>
- 结果序列:<9, 12, 12>
The methods by Wang et al. [5] and Meyer [6] find a non-decreasing
mapping function t() that minimizes:
其中,ci表示真实label, pi表示模型输出的预测概率。M是一个表示平滑程度的参数,a和b分别表示输入的预测值的范围,用于平衡拟合程度(goodness-of-fit,第一项)和转换函数t()的平滑度(smoothness,第二项)。
算法实现流程如下:Algorithm 1: Smooth Isotonic Regression
通过Isotonic regression 得到单调且非参数化的函数f(),同时这个函数要使有最小值。
在经过Isotonic Regression函数映射后的数据中,选择s个典型的点,其预测值和对应的label分别记作集合和。
对步骤2中采样的点采用Piecewise Cubic Hermite Interpolating Polynomial (PCHIP)方法进行插值,得到平滑后的单调曲线,并将该曲线作为最终进行校准的映射函数。
理论上讲,该方法比Isotonic regression 更加平滑,比sigmoid regression 更加灵活。
Isotonic Regression is a more powerful calibration method that can correct any monotonic distortion. Unfortunately, this extra power comes at a price. A learning curve analysis shows that Isotonic Regression is more prone to overfitting, and thus performs worse than Platt Scaling, when data is scarce.[1]
Isotonic regression 对模型的输出特征没有要求;
适用于样本量多的情形,样本量少时,使用isotonic regression容易过拟合;
Isotonic Regression通常作为辅助其他方法修复因为数据稀疏性导致的矫正结果不平滑问题;[7]
Microsoft在文献[3]中的CTR预估模型的校准上用到Isotonic Regression。
