matlab - 在MATLAB中使用回归函数时获得等级不足警告

我有一个包含30个独立变量的数据集，我尝试使用regress函数在MATLAB R2010b中执行线性回归。

我收到一条警告，指出我的矩阵X is rank deficient to within machine precision。

现在，执行此功能后得到的系数与实验值不匹配。

谁能建议我如何对包含30个变量的方程进行回归分析？

最佳答案

在进行讨论时，收到该警告的原因是因为您拥有所谓的underdetermined system。基本上，您有一组约束，在这些约束中，您要解决的变量比可用数据更多。系统欠佳的一个例子是:

x + y + z = 1
x + y + 2z = 3

无限数量的(x,y,z)组合可以解决上述系统。例如，(x, y, z) = (1, −2, 2), (2, −3, 2), and (3, −4, 2)。在您的情况下，排名不足的意思是，与一组满足描述输入变量和输出观察值之间关系的控制方程的回归系数相比，比一组回归系数多。这可能就是regress的输出与您的地面真实回归系数不匹配的原因。尽管答案不尽相同，但要知道输出是一个可能的答案。通过将数据与regress一起运行，这就是将观察矩阵定义为X并将输出向量定义为Y的结果:
>> format long g; >> B = regress(Y, X); >> B B = 0 0 28321.7264417536 0 35241.9719076362 899.386999172398 -95491.6154990829 -2879.96318251964 -31375.7038251919 5993.52959752106 0 18312.6649115112 0 0 8031.4391233753 27923.2569044728 7716.51932560781 -13621.1638587172 36721.8387047613 80622.0849069525 -114048.707780113 -70838.6034825939 -22843.7931997405 5345.06937207617 0 106542.307940305 -14178.0346010715 -20506.8096166108 -2498.51437396558 6783.3107243113

您会看到存在等于0的七个回归系数，它们对应于30-23 =7。我们有30个变量和23个约束可以使用。请注意，这不是唯一可能的解决方案。 regress本质上计算最小二乘误差解，以使Y - X*B的残差之和具有最小的误差量。这实质上简化为:
B = X^(*)*Y
X^(*)是矩阵的pseudo-inverse。 MATLAB提供了此功能，它称为 pinv 。因此，如果我们这样做:
B = pinv(X)*Y

我们得到:
B = 44741.6923363563 32972.479220139 -31055.2846404536 -22897.9685877566 28888.7558524005 1146.70695371731 -4002.86163441217 9161.6908044046 -22704.9986509788 5526.10730457192 9161.69080479427 2607.08283489226 2591.21062004404 -31631.9969765197 -5357.85253691504 6025.47661106009 5519.89341411127 -7356.00479046122 -15411.5144034056 49827.6984426955 -26352.0537850382 -11144.2988973666 -14835.9087945295 -121.889618144655 -32355.2405829636 53712.1245333841 -1941.40823106236 -10929.3953469692 -3817.40117809984 2732.64066796307

您会看到没有零系数，因为pinv使用L2范数找到了解决方案，这促进了错误中的“扩展”(缺乏更好的术语)。您可以通过执行以下操作来验证这些是正确的回归系数:
>> Y2 = X*B Y2 = 16.1491563400241 16.1264219600856 16.525331600049 17.3170318001845 16.7481541301999 17.3266932502295 16.5465094100486 16.5184456100487 16.8428701100165 17.0749421099829 16.7393450000517 17.2993993099419 17.3925811702017 17.3347117202356 17.3362798302375 17.3184486799219 17.1169638102517 17.2813552099096 16.8792925100727 17.2557945601102 17.501873690151 17.6490477001922 17.7733493802508

类似地，如果我们使用regress的回归系数，那么B = regress(Y,X);然后执行Y2 = X*B，我们得到:
Y2 = 16.1491563399927 16.1264219599996 16.5253315999987 17.3170317999969 16.7481541299967 17.3266932499992 16.5465094099978 16.5184456099983 16.8428701099975 17.0749421099985 16.7393449999981 17.2993993099983 17.3925811699993 17.3347117199991 17.3362798299967 17.3184486799987 17.1169638100025 17.281355209999 16.8792925099983 17.2557945599979 17.5018736899983 17.6490476999977 17.7733493799981

有一些细微的计算差异，这是可以预期的。同样，我们也可以使用mldivide找到答案:
B = X \ Y B = 0 0 28321.726441712 0 35241.9719075889 899.386999170666 -95491.6154989513 -2879.96318251572 -31375.7038251485 5993.52959751295 0 18312.6649114859 0 0 8031.43912336425 27923.2569044349 7716.51932559712 -13621.1638586983 36721.8387047123 80622.0849068411 -114048.707779954 -70838.6034824987 -22843.7931997086 5345.06937206919 0 106542.307940158 -14178.0346010521 -20506.8096165825 -2498.51437396236 6783.31072430201

您会发现这奇怪地与regress给您的内容相匹配。那是因为\是更聪明的运算符。根据矩阵的结构方式，它可以通过其他方法找到系统的解决方案。我想请您引用Amro的文章，其中讨论了mldivide在检查要操作的输入矩阵的属性时使用的算法:

How to implement Matlab's mldivide (a.k.a. the backslash operator "\")

您应该从该答案中删除的是，您当然可以继续使用这些回归系数，并且它们或多或少将为Y的每个值以及X的每个输入集提供预期的输出。但是，请注意，这些系数不是，而是。正如您说的那样，您拥有的地面真实系数与regress的输出不匹配，这很明显。之所以不匹配，是因为它生成了另一个满足您提供的约束的答案。

如上所示的实验所示，如果您的系统不确定，那么有多个答案可以描述这种关系。
关于matlab - 在MATLAB中使用回归函数时获得等级不足警告，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/29172575/