变截距面板数据模型

变截距面板数据模型理论介绍

混合效应模型

背景思想

回归公式可以忽略个体与时间变化的差异,因此所有的数据特征可以通过一个公式进行刻画。进行数据的大杂烩、乱炖。为什么采取这么直接粗暴的方式呢?因为每个品种的菜(个体与时间维度)都很少,每一个品种的菜都不能够做出完整一盘菜,只能将所有的菜杂七杂八的混合起来乱炖。乱炖虽说精度不高,可是总比没法处理要好很多。

模型假定

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3. \(\varepsilon_{it}与X_{it}不相关\);

公式:

\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

估计方法展示

数据结构展示:

数据分析-面板数据变截距模型-LMLPHP

估计方法:

这个模型是将所有的数据\((y,x_1,x_2,x_3,x_4)\)直接导入公式\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)进行回归,只能求出一组\((\beta_{1},\beta_{2},..,\beta_{k})'\),意味着\(\beta\)在不同个体、不同时点上都是同一组,它不会因为时间或个体而发生变动。

固定效应模型

背景思想

当你拥有蔬菜的品种足够多,你就可以依据他们的味道单独做一些小炒菜。有一些影响因素A随着一些条件的改变而改变,但是这个因素A并未通过\(X\)观测变量纳入模型,比如说我们研究消费函数,\(C = \alpha + \beta Y + \varepsilon\), 这里的\(\alpha\)叫做自发消费,这个自发性消费是可能和个人特征、所处的社会文化、教育等未观测变量有关,换句话说,截距项 \(\alpha\) 和个体某些未观测到的特质有关,而不和\(Y\)有关。\(\alpha\)\(\varepsilon\)都是代表了不可观测因素的影响,前者的影响因素是有趋势的(常数也是一种趋势),后者的影响因素是无趋势的。更简单的理解就是,\(\alpha\)存在的意义就是为了使\(\varepsilon\)拥有零均值。

  • 当这个截距项与个体特征相关时,我们称为个体固定效应模型。
  • 当这个截距项与时间特征有关时,我们称为时间固定效应模型。
  • 同理,和A潜在变量有关,我们就可以称它为A的固定效应模型。
  • 当这个截距项与个体特征和时间特征都相关时,我们称为双固定效应模型。
  • 同理,也可以同时依据三种或三种以上的变量进行分类,回归得出它们影响的截距项的估计值。

个体固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it}相关\)
5. \(E(\alpha_i)=0\)

模型公式

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

补充:也写为
\(Y_{it}=u_i+ X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\)

估计方法展示

数据结构如下:
数据分析-面板数据变截距模型-LMLPHP

1.组内(within)估计(离差估计)
离差估计就是剔除常数项,然后进行估计,首先明白我们的目标:分别计算\(a,b,c,d,e\)组内的截距和各自的组内\(\beta\) .其实,不需要离差就可以回归。将a,b,c,d,e组的数据分别带入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\),就可以得到结果。

  • 离差方差推导
    原方程:
    \(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
    求均值方程:
    \(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
    离差变换(原方程减均值方程):
    \(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
    \(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
    \(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\)

  • 带入离差数据求解,文字描述
    通过\((y,x_1,x_2,x_3,x_4)\)计算组内时间上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\),然后计算离差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),带入离差方程\(Y_{it}-\bar Y_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)进行估计。

  • 利用估计出的\(\beta\)带入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\),求解组内的(\(\alpha_0 +\alpha_i\))

  • 通过上一步\(N\)个组的(\(\alpha_0 +\alpha_i\)),求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依据假设5:\(E(\alpha_i)=0\)

  • 再求解\(\alpha_i = (\alpha_0 +\alpha_i) - \alpha_0\)

2.一阶差分估计
原理: 因为\(\alpha_0 +\alpha_i\)是不受时间影响的,所以我们可以使用差分方法消去常数项

  • 差分方程推导
    原方程:
    \(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
    上一期方程:
    \(Y_{i,t-1}=\alpha_0 +\alpha_i + X_{i,t-1}' \beta + \varepsilon_{i,t-1},i = 1,2,3,...,N;t=1,2,3,...,T\)
    原方程减上一期方程:
    \(Y_{it}-Y_{i,t-1}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it}-\alpha_0 - \alpha_i - X_{i,t-1}' \beta - \varepsilon_{i.t-1} = X_{it}' \beta -X_{i,t-1}' \beta + \varepsilon_{it}- \varepsilon_{i,t-1}\)
  • 数据代入求解即可。
  • 此方法无法求解截距项。

3.LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将个体差异以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_N\end{pmatrix}\)
其中:
\(D_N=\begin{cases} 1 &\text{if } 为N组 \\ 0 &\text{if } 不为N组\end{cases}\)

时点固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\lambda_i 与X_{it}相关\)

模型公式

\(Y_{it}=\lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

估计方法展示

数据结构如下:
数据分析-面板数据变截距模型-LMLPHP

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_T\end{pmatrix}\)
其中:
\(D_T=\begin{cases} 1 &\text{if } 为T时期 \\ 0 &\text{if } 不为T时期\end{cases}\)

个体时点固定效应模型

模型假设

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_i 与X_{it}相关\)
5 \(\alpha_i 与X_{it}相关\)
6 \(E(\alpha_i)=0\)
7 \(E(\lambda_i)=0\)

这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);

模型公式

\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_i+X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

估计方法

数据结构展示:
数据分析-面板数据变截距模型-LMLPHP

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。

  • 估计方程形式:
    \(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
    \(D_{\lambda}=\begin{pmatrix} D_1 & D_2&D_3&...&D_T\end{pmatrix}\)
    其中:
    \(D_T=\begin{cases} 1 &\text{if } 为T时期 \\ 0 &\text{if } 不为T时期\end{cases}\)
    \(D_\alpha=\begin{pmatrix} D_1 & D_2&D_3&...&D_N\end{pmatrix}\)
    其中:
    \(D_N=\begin{cases} 1 &\text{if } 为N组 \\ 0 &\text{if } 不为N组\end{cases}\)

  • 也可以将时间与个体效应混合
    \(Y = Dh + X\beta + \varepsilon\)
    \(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_{N*T}\end{pmatrix}\)
    其中:
    \(D=\begin{cases} 1 &\text{if } 为第N个体的T时期 \\ 0 &\text{if } 不为第N个体的T时期\end{cases}\)

个体时点双固定效应,控制区域、行业等模型

模型假设

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_i 与X_{it}相关\)
5 \(\alpha_i 与X_{it}相关\)
6 \(E(\alpha_i)=0\)
7 \(E(\lambda_i)=0\)

这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);

模型公式

\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_i+D_{type}\gamma+X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)

这个方程为了方便理解而设定,其中\(\tilde{\alpha}_i与D_{type}\)存在共线性问题,毕竟类型属性也是个体特征的一部分嘛!

估计方法展示

数据展示
数据分析-面板数据变截距模型-LMLPHP

估计方法:同上,将类型变量按照虚拟变量加入方程即可。

随机效应模型

背景思想:每组估计值的截距项的变动不与X的特征有关。

个体随机效应

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it},\varepsilon_{it}不相关\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);

公式:

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,...,N;t=1,2,3,...,T\)

根据\(v_{it}=\alpha_i + \varepsilon_{it}\)\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 与X_{it},\varepsilon_{it}不相关\);\(var(\varepsilon)=\sigma_\varepsilon为常数\)
推导:
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases} \sigma_\alpha^2 &\text{if } t \neq s \\\sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s\end{cases}\)
所以不满足古典假定,存在异方差与自相关问题。

估计方法展示
  • 可行的广义最小二乘法(FGLS)

模型设定检验

F检验(chow's test)

原假设:混合回归模型
备择假设:其他模型

以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)

原假设:\(u_1=u_2=...=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的\(RSS_r\)
备择假设:\(u_1,u_2,...,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的\(RSS_u\)

F统计量构造:
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)

LR检验

原假设:混合回归模型
备择假设:其他模型

以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)

原假设:\(u_1=u_2=...=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_r)\)
备择假设:\(u_1,u_2,...,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_u)\)

LR统计量构造:
\(LR=-2(lnL_r-lnL_u)渐近服从\chi^2(约束条件的个数: N-1)\)

豪斯曼检验(Hauseman's test)

原假设:个体随机效应模型(个体效应与回归变量无关)
备择假设:个体固定效应模型(个体效应与回归变量有关)

检验的原理:
利用组内估计(within),无论是随机效应模型的参数估计值还是固定效应模型的参数估计值,估计参数值都是一致的
利用广义最小二乘法,对随机效应模型的参数估计值是一致的,对于随机效应模型的参数估计值是不一致的

检验逻辑图:

graph LRA[F检验 or LR检验] --不拒绝原假设,意味着截距项不变动--> B[使用混合回归]A --拒绝原假设,意味着截距项变动--> C[豪斯曼检验]C --不拒绝原假设--> D[选择个体随机效应模型]C --拒绝原假设--> E[选择个体固定效应模型]

变截距面板数据模型建模步骤

graph LRA[输入数据]-->B[描述性统计分析]-->C[面板单位根检验]C--数据非平稳-->D[面板协整分析]C--数据平稳-->E[变截距检验] & F[变系数检验]E[F检验 or LR检验] --不拒绝原假设,意味着截距项不变动--> G[使用混合回归]E --拒绝原假设,意味着截距项变动--> H[豪斯曼检验]H --不拒绝原假设--> L[选择个体随机效应模型]H --拒绝原假设--> M[选择个体固定效应模型]
11-02 06:25