1.关于“问题”的问题

一项研究计划可以围绕四个基本问题(frequently asked questions,FAQ)展开:

  • 研究对象间的(因果)关系(relationship of interest)
  • 理想条件下的实验(ideal experiment)
  • 识别策略(identification strategy)
  • 推断模型(mode of interest)

这四个问题提供了一个从提出研究问题到设计实验,然后进行数据分析并得出结论的基本框架。在经济学和其他社会科学的研究中,这是一种非常有用的方法。

2.理想的实验

最可信和最有影响力的研究设计应该使用随机分配(random assignment)的方法

2.1 选择性偏误

研究问题:医院能让人变得更健康吗?
调查方法:全国健康采访调研

从表格知道,两者之间的平均差距是0.72,没有去过医院的人健康状况更好,两者之差大且显著, t t t统计量为58.9。这个结果意味着去医院会使人健康状况变差。

事实真是如此吗? 去医院的人可能本身健康水平就比较差。人们去医院通常是因为他们生病或者有健康问题,而健康的人则不需要去医院。因此,当我们比较这两组人的健康状况时,我们实际上是在比较生病的人和健康的人,而不是比较去医院的效果。这个问题被称为选择性偏误,因为人们是否去医院是根据他们的健康状况来选择的,而这个选择可能与他们的健康状况相关。这使得我们很难确定去医院是否会改善人们的健康状况,因为我们不能确定健康状况的改变是由于去医院,还是由于他们本来就生病。

🔆解决这个问题的一种方法是使用随机化实验设计

  1. 个体 i i i是否接受医院治疗 D i = { 0 , 1 } D_i=\{0,1\} Di={0,1},个体 i i i的健康水平记为 Y i Y_i Yi。对于任何个体而言,他们的健康状况都有两种潜在结果:
    Y i = { Y 1 i if  D i > 0 Y 0 i if  D i = 0 = Y 0 i + ( Y 1 i − Y 0 i ) D i Y_i = \begin{cases} Y_{1i} & \text{if } D_i > 0 \\ Y_{0i} & \text{if } D_i = 0 \end{cases} = Y_{0i}+(Y_{1i}-Y_{0i})D_i Yi={Y1iY0iif Di>0if Di=0=Y0i+(Y1iY0i)Di
    也就是说,一个人没有去医院,他的健康状态是 Y 0 i Y_{0i} Y0i;一个人去医院接受了治疗,他的健康状态是 Y 1 i Y_{1i} Y1i。我们想知道的个体因果效应就是 Y 1 i − Y 0 i Y_{1i}-Y_{0i} Y1iY0i,这个值可以解释为个体 i i i在医院接受治疗对其健康状况产生的影响。【Rubin因果模型】

2.平均因果效应(average casual effect)
E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] + E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_i| D_i =1]-E[Y_i| D_i =0] \\ =E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \\ =E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]+E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0] E[YiDi=1]E[YiDi=0]=E[Y1iDi=1]E[Y0iDi=0]=E[Y1iDi=1]E[Y0iDi=1]+E[Y0iDi=1]E[Y0iDi=0]
其中, E [ Y 1 i ∣ D i = 1 ] E[Y_{1i}|D_i=1] E[Y1iDi=1]是接受住院治疗的人的平均健康水平, E [ Y 0 i ∣ D i = 1 ] E[Y_{0i}|D_i=1] E[Y0iDi=1]是如果接受住院治疗的人本来没有得到治疗,他们的健康水平。
E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] E[Y1iDi=1]E[Y0iDi=1]处理的平均因果效应

E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0] E[Y0iDi=1]E[Y0iDi=0]选择性偏误。是去医院的接受治疗与不去医院接受治疗的人如果没有被治疗时的健康状况的平均差异。

2.2 用随机分配解决选择性偏误

D i D_i Di进行随机分配可以消除选择性偏误,因为随机分配使得 D i D_i Di独立于潜在结果。在数学上,这意味着

E [ Y 0 i ∣ D i = 1 ] = E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1] = E[Y_{0i}|D_i=0] E[Y0iDi=1]=E[Y0iDi=0]

如果这个等式成立,那么选择性偏误就为0,因为选择性偏误被定义为

E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{0i}|D_i=1] - E[Y_{0i}|D_i=0] E[Y0iDi=1]E[Y0iDi=0]

因此,当处理是随机分配的,可以得出

E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ] E[Y_i|D_i=1]-E[Y_i|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] =E[Y_{1i}-Y_{0i}|D_i=1]=E[Y_{1i}-Y_{0i}] E[YiDi=1]E[YiDi=0]=E[Y1iDi=1]E[Y0iDi=1]=E[Y1iY0iDi=1]=E[Y1iY0i]

也就是说,处理的平均因果效应等于接受治疗和不接受治疗的个体的期望健康状况之差。这就允许我们直接估计平均因果效应,而无需担心选择性偏误的问题。

2.3 对实验的回归分析

Y i = β 0 + β 1 D i + ϵ i Y_i = \beta_0 + \beta_1 D_i + \epsilon_i Yi=β0+β1Di+ϵi
其中, β 0 = E ( Y 0 i ) \beta_0=E(Y_{0i}) β0=E(Y0i) β 1 = ( Y 1 i − Y 0 i ) \beta_1=(Y_{1i}-Y_{0i}) β1=(Y1iY0i) ϵ i \epsilon_i ϵi Y 0 i Y_{0i} Y0i的随机部分,即 ϵ i = Y 0 i − E ( Y 0 i ) \epsilon_i=Y_{0i}-E(Y_{0i}) ϵi=Y0iE(Y0i)

对上面这个等式求数学期望:
E [ Y i ∣ D i = 1 ] = β 0 + β 1 + E [ ϵ i ∣ D i = 1 ] E[Y_i|D_i=1]=\beta_0 + \beta_1+E[\epsilon_i|D_i=1] E[YiDi=1]=β0+β1+E[ϵiDi=1]
E [ Y i ∣ D i = 0 ] = β 0 + E [ ϵ i ∣ D i = 0 ] E[Y_i|D_i=0]=\beta_0 +E[\epsilon_i|D_i=0] E[YiDi=0]=β0+E[ϵiDi=0]
两式相减, E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = β 1 + E [ ϵ i ∣ D i = 1 ] − E [ ϵ i ∣ D i = 0 ] E[Y_i|D_i=1]-E[Y_i|D_i=0]=\beta_1+E[\epsilon_i|D_i=1]-E[\epsilon_i|D_i=0] E[YiDi=1]E[YiDi=0]=β1+E[ϵiDi=1]E[ϵiDi=0]

因此,选择性偏误意味着回归残差项 ϵ i \epsilon_i ϵi和回归元 D i D_i Di之间存在着相关性。

06-12 05:08