固定效应、随机效应、相关随机效应--潘登同学的计量经济学笔记
固定效应模型
前面说到过,一阶差分可以消除非观测效应(或者固定效应),但是他只是这些方法中的一个; 在某些情况下,固定效应变换能起到更好的作用。
考虑以下简单模型 $$ y_{it} = \beta_1 x_{it} + a_i + u_{it}, t=1,2,\ldots,T $$
对每个$i$求方程在时间上的平均,得到 $$ \bar{y}_i = \beta_1 \bar{x}_i + a_i + \bar{u}_i $$
上式减下式,得到 $$ y_{it} - \bar{y}_i = \beta_1 (x_{it}-\bar{x}_i) + (u_{it}-\bar{u}_i) $$ 简记为 $$ \ddot{y}_{it} = \beta_1 \ddot{x}_{it} + \ddot{u}_{it} \qquad (*) $$
其中,$\ddot{y}_{it} = y_{it} - \bar{y}_i$表示$y$除时间的均值数据; 而固定效应变换又称为组内变换,通过$(*)$得到的OLS估计量又称为固定效应估计量或组内估计量;
注意事项
- 在解释变量的严格外生性假定下,固定效应估计量是无偏的;
- 固定效应估计量与一阶差分估计量类似,允许$a_i$与任何时期的解释变量相关;正因如此,凡是在时间上恒定的解释变量都必定随固定效应变换而消失;
- 对于一般的非观察效应模型(形如上面第一个方程),有NT个观测值和k个自变量,由于对时间取平均,每个个体都损失了一个自由度,所以$df=N(T-1)-k$
固定效应的假设
- FE.1: 对于每个$i$,模型是 $$ y_{it} = \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + a_i + u_{it} $$ 这里的$\beta_j$是待估参数,$a_i$是未观测到的效应
- FE.2:我们从横截面中取一个随机样本
- FE.3: 每个解释变量都在时间维度上变化,在就诶是变量中没有完全共线性关系
- FE.4: 对于每个$i$,给定所有时期下解释变量和非观测效应,个体误差项的期望值为0 $$ E(u_{it}|X_i,a_i) = 0 $$
在四个假设下,与一阶差分估计量的假设一致,固定效应模型估计量是无偏的; 进一步的,当关键假定FE.4(严格外生性假定下),当T固定而N趋向于无穷时,固定效应估计量是一致的;
工作培训与废弃率的例子
要注意的是,在解释系数的时候仍然用最开始的方程来解释,固定效应模型只是用来计算估计量而已...
其中的$R^2$是从组内变换方程$(*)$中计算得来的
虚拟变量回归
对于固定效应模型,传统的观点认为:非观测效应$a_i$对于每个$i$来说,都是一个有待估计的参数;对于每个$i$估计一个截距的方法,就是连同解释变量一起,在每一个个体安排一个虚拟变量;无需做固定效应变换,直接估计非观测效应模型即可;
优缺点
- 这样一来,对于N个个体,T个时期,整个方程的自由度自然就是$df=NT - k - N$($k$个解释变量,$N$个虚拟变量),这就算是虚拟变量回归的一个优点(能直接看出自由度);
但是对于时期数T,如果只有一个时期的话,就会面临待估参数有$N+k$而观测样本只有$N$个的无关回归的处境; 大多数情况下,面板数据集都是N大T小的情况,使用虚拟变量回归不是很现实;
通过虚拟变量回归计算出的$R^2$通常都比较高,因为我们对每一个个体都包含了一个虚拟变量,以致能解释数据中变化的大部分;
对于虚拟变量估计出的$a_i$是无偏的,但是在给定$T, N\to \infty$的时候,也是不一致的,只有在$T$越大的时候,估计的效果才能变得更好;
固定效应(FE)与一阶差分(FD)
当$T=2$的时候,FE与FD的估计量以及其全部检验统计量都完全一样。在FD中有一个包含第二个时期的截距,所以要使FE与FD完全一致,那么在FE的方程中加上第二个时期的虚拟变量就行;
当$T\geq3$的时候,FE与FD估计量便不相同,但两者都是无偏且一致的(在固定$T,N\to \infty$), 对于较大的$N$和较小的$T$,FE和FD之间的选择的关键在其估计量的相对效率,这将由特异性误差$u_{it}$中序列的相关性来决定;
- 当$u_{it}$无序列相关的时, 固定效应法比一阶差分更有效;
- 当$u_{it}$序列相关的时, 特别是很强的正序列相关(如:随机游走) 一阶差分比固定效应法更有效;
- 其他情形,则不一定;
当T很大,而N比较小时(如N=20,T=30),使用一阶差分更有效,因为一阶差分具有将一个单整时间序列过程转化为一个弱相关过程的有点,在T大N小的时候,援引中心极限定理,特异性误差中的正态性就不再需要;而固定效应估计量则对特异性误差中的正态性、异方差性和序列相关更敏感;
与一阶差分类似,固定效应估计量对一个或多个解释变量的经典测量误差和敏感。 另一方面,若$x_{it}$都与$u_{it}$无关,但违背了严格外生性假定(回归元中包含滞后因变量,或$u_{it}$与解释变量未来结果之间有某种反馈),则FE估计量可能明显比FD估计量偏误更小(除非T=2)。 一个重要的理论是,FD估计量的偏误不取决与T,而FE的估计量中偏误则是以速度$\frac{1}{T}$趋于零;
随机效应模型
还是从一个非观测效应开始 $$ y_{it} = \beta_0 + \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + a_i + u_{it} $$ 其中我们明确引入一个截距项,使得我们能够假定非观测效应$a_i$有零均值而又不失一般性;
我们假定$a_i$与任何一个解释变量在任何时期都无关 $$ Cov(x_{itj},a_i) = 0, t=1,2,\ldots,T $$ 随机效应假定满足所有的固定效应假定,外加一条$a_i$与任何一个解释变量在任何时期都无关;
我们可以用以下两种不同的思路来估计$\beta_j$
- 加入时间虚拟变量做OLS回归(就与上面的虚拟变量回归一致)
- 采用类似固定效应模型除均值的做法(但是有所不同)
- 定义复合误差项为$v_{it} = a_i + u_{it}$,则分观测效应模型改写为 $$ y_{it} = \beta_0 + \beta_1 x_{it1} + \cdots + \beta_k x_{itk} + v_{it} $$
- 不同时期的$v_{it}$存在序列相关 $$ Corr(v_{it},v_{is}) = \frac{\sigma_a^2}{\sigma_a^2 + \sigma_u^2},t\neq s $$
- 所以如果使用普通的OLS估计就会导致不正确,应该使用GLS来进行估计,估计前先假设有足够大的N和相对小的T,拥有的是平衡面板数据; 先计算一个比例 $$ \theta = 1 - (\frac{\sigma_u^2}{\sigma_u^2 + T\sigma_a^2})^{\frac{1}{2}} $$
- 这个值介于0到1之间; 用这个比例乘上在时间上求出均值的方程,再做差: $$ y_{it} - \theta \bar{y}_{it} = \beta_0(1-\theta) + \beta_1(x_{it1}-\theta \bar{x}_{it1}) + \ldots + \beta_k(x_{itk}-\theta \bar{x}_{itk}) + (v_{it} - \theta\bar{v}_{it}) \qquad () $$ 固定效应变换从相应变量中减去其时间平均值,而随机效应变换只减去其平均值的一个比例,这个比例取决于$\sigma_u^2 , T, \sigma_a^2$; 虽然很难看出$()$是序列无关的,但是事实就是如此;
注意:
参数$\theta$是绝对未知但是可以估计的,有不同的估计方法,可以根据(对步骤1的式子)做混合OLS估计,得到$\hat{\sigma}_v^2$,再通过公式$\hat{\sigma}_a^2 = [\frac{NT(T-1)}{2} - (k+1)]^{-1}\sum_{i=1}^N\sum_{t=1}^{T-1}\sum_{s=t+1}^T \hat{v}_{it} \hat{v}_{is}$得到$\hat{\sigma}_a^2$,最后根据$\hat{\sigma}_u^2 = \hat{\sigma}_v^2 -\hat{\sigma}_a^2$估计$\hat{\sigma}_u^2$
对于软件计算出来的某些形式的$\hat{\theta}$来代替$\theta$的可行GLS估计量被称为随机固定效应估计量;该估计量不是无偏的,但是是一致的,相对固定的T,随着N的增大而渐近正态;
$\theta$的取值范围
- 当$\hat{\theta}=0$时便得到混合OLS,RE的估计值就会接近混合OLS的估计值;当非观测效应$a_i$不重要的时候(因为想对于$\sigma_u^2$,它的方差很小),就会出现这种情形;
- 当$\hat{\theta}=1$时便得到FE,更常见的情形是$\sigma_a^2$相对地比$\sigma_u^2$要大,这时候$\theta$接近1,从而使得RE与FE两种估计非常类似;
改写$(*)$中的准除均值误差: $$ v_{it} - \theta\bar{v}_i = (1-\theta)a_i + u_{it} - \theta \bar{u}_i $$ 这样我们就能看到随机效应相对于固定效应的优点,随机效应变换方程中,无法观测因素$a_i$的权数为$(1-\theta)$,尽管$a_i$与一个或多个$x_{itj}$之间的相关导致随机效应估计中的不一致行,但我们看到,这种相关已经被因子$(1-\theta)$削弱,随着$\theta \to 1$,偏误项趋近于0;
工资方程的例子
随机效应(RE)与固定效应(FE)对比
- 总体来看,FE比RE要好,因为FE允许$a_i$与$x_{itj}$任意相关,而随机效应则不然;
- 如果关键解释变量不随时间而变化,我们就无法使用FE;只能选择RE或混合OLS(RE比混合OLS更有效);
- 特别地,如果使用RE,则在解释变量中包含的不随时间而变化控制变量要尽可能多;
- 如果$cov(x_{itj},a_i)=0$,那么可以使用RE而不是FE;
更常见的是同时使用RE与FE,然后规范的检验时变解释变量系数的统计显著差别;
对于选择RE还是FE,可以使用豪斯曼检验
- 其原价是就是$cov(x_{itj},a_i)=0$
- 如果检验拒绝了原假设,那么就使用FE,否则使用RE
相关随机效应
在某些情况下,我们可以将$a_i$(非观测效应)当作随机变量使用,再加上我们得到的观测变量,这时就有了一个途径来允许$a_i$与观测的解释变量相关。
对于最简单的非观测效应模型 $$ y_{it} = \beta_1 x_{it} + a_i + u_{it}, t=1,2,\ldots,T $$
与RE中的$a_i$与${x_{it}: t=1,2,\ldots,T}$不相关假设不同,与FE中方程除均值以消去$a_i$不同,现在假设$a_i$与${x_{it}: t=1,2,\ldots,T}$相关; 但是$a_i$又不随时间变化,我们假设其与$x_{it}$的均值相关也比较合理;
于是建立以下线性方程 $$ a_i = \alpha + \gamma \bar{x}_i + r_i $$ 其中,满足以下假设 $$ Cov(\bar{x}_i, r_i) = 0 $$
将$a_i$代换掉,改写原方程 $$ y_{it} = \alpha + \beta_1 x_{it} + \gamma \bar{x}_i + r_i + u_{it} $$ 现在将上式视作随机效应模型,就是加入了一个$\bar{x}_i$, $a_i$用$r_i$来替换,对上式采用RE回归分析,得到了$\hat{\alpha}_{CRE},\hat{\beta}_{CRE},\hat{\gamma}_{CRE}$,称为CRE估算值,就$\hat{\beta}_{CRE}$而言,与$\hat{\beta}_{FE}$相等;
下面是采用CRE与FE得到的系数相等的一个解释:
对截面数据使用上述方法
差分、固定效应模型、随机效应模型这些面板数据的方法还可以用于截面数据;
下面列出两个例子,一个是对卵生姐妹间做差分以消除家庭背景差异,一个是对同卵双胞胎做差分而消除能力差异的例子;
上面说道的是配对样本的例子,下面再举一个聚类样本的例子,要注意的是: 聚类样本是事前聚类(从同一家公司中抽员工)而不是随机抽出来之后聚类