跨时期横截面的混合--潘登同学的计量经济学笔记
跨时期横截面的混合包含两种
- 一种是独立混合横截面:可以简单理解为将两个时间点的横截面放到一起(一般是政策分析)
- 另一种是面板数据:这种数据是跟踪同一组样本,在不同时点得到的;如果我们想收集面板数据,我们要在不同时间追踪相同的一些人,家庭,企业或者城市等
独立横截面的混合
使用混合横截面的一个理由是: 加大样本容量,把不同时间点从同一总体中抽取的多个随机样本混合起来使用,可以获取更精密的估计量和更具功效的检验统计量;
所以需要注意的是: 仅当因变量和某些自变量保持着不随着时间而变化的关系时,混合才是有用的
典型地说,总体在不同时期有不同的分布,我们可以通过包含时间的虚拟变量来使得截距不同来解决这一问题。
例子1:不同时期的妇女生育率
在该例子中,我们增加了年度的虚拟变量,相当于改变了截距项,但是可能系数的解释也会随着时间的改变而不同,下面看一个交互作用的例子
例子2: 教育回报和工资中性别差异的变化
在该例子中,除了对交互项的分析外,我们还应该注意到一点,对数工资能把平减因子弄到截距项里面; 其次,如果将所有自变量与虚拟变量交互就相当与做了两次估计方程
跨时结构性变化的邹至庄检验
与之前检验两组数据在多元回归中是否有差别一样(之前用的例子是男女组别的估计方程),我们可以将这种检验用在两个不同时期;
- $SSR_{p}$:混合估计的残差平方和
- $SSR_{ur}$:对两个时期分别估计而得到的两个SSR之和 $$ F = \frac{SSR_{p}-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k} $$
原假设:两个时期的方程没有差别
因为邹至庄检验本质上是F检验,其实与直接对含有虚拟变量的那些项做F检验与上面的结果一致
推广
更一般地,该检验可以用于检验T个时期是否有显著差异
- $SSR_{ur} = SSR_1 + SSR_2 + \ldots + SSR_T$: 对T个时期中的每个时期都做一个回归,并将每个回归的残差平方和加起来
- $SSR_{p}$:混合估计的残差平方和 $$ F = \frac{SSR_{p}-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-T(k+1)}{(T-1)k} $$
原假设:T个时期的方程都没有差别
政策分析的一般做法
以下是一个政策分析的例子
所以可以将上例抽象为以下方法;当某个外生事件(常常是政府的政策改变),影响了个人、家庭或者企业等的运行环境的时候,便产生了自然实验。一个自然实验通常有一个不受政策变化影响的对照组和一个被认为受政策变化影响的处理组(这里的对照组、处理组表示的是核心解释变量的不同,例如上例的是否在三英里内)
令$d_2$为虚拟变量(指示政策改变前后),$dT$表示核心解释变量(处理组为1,否则为0)
$$ y = \beta_0 + \delta_0d_2 + \beta_1dT + \delta_1d_2dT + 其他因素 $$ 其中$\delta_1$度量了政策效应, 若回归中没有其他因素,$\hat{\delta_1}$就是倍差估计量 $$ \hat{\delta_1} = (\bar{y_{2,T}}-\bar{y_{2,C}}) - (\bar{y_{1,T}}-\bar{y_{1,C}}) $$ 其中第一个下标表示年,第二个表示对照组和处理组
两时期面板数据分析
另$i$表示横截面单位,$t$表示时期,我们可以将单个可观测解释变量的模型写成 $$ y_{it} = \beta_0 + \delta_0 d_2 + \beta_1x_{it} + a_i + u_{it} $$ 之所以写成上面这样形式(后面加了一个$a_i$),是因为是单变量模型(多变量也可以这样用)中的无法观测因素$u$包含了随时间而变化和不随时间而变化的因素,$a_i$就是从中分离出来的不随时间而变化的因素;$a_i$概括了影响着$y_{it}$但又不随着时间而变化的所有无法观测的因素,$a_i$一般被成为非观测效应,也常常被成为固定效应,也有称其为非观测异质性;而$u_{it}$则被成为特异性误差或时变误差
我们要估计的是$\beta_1$而不是想知道$a_i$,所以要回到OLS估计,那么我们就必须假定$a_i$与$x_{it}$无关,所以只是写法上面有所改变,本质上还是 $$ y_{it} = \beta_0 + \delta_0 d_2 + \beta_1x_{it} + v_{it} $$ 其中$v_{it} = a_i + u_{it}$,即使我们可以假定$v_{it}$与$x_{it}$无关,但是多数时候$a_i与x_{it}$可能是相关的,所以用上式估计的效果并不好,我们可以采用一阶差分来做 $$ y_{i2} = (\beta_0 + \delta_0) + \beta_1x_{i2} + a_i + u_{i2} \qquad (t=2)\ y_{i1} = \beta_0 + \beta_1x_{i1} + a_i + u_{i1} \qquad (t=1) \ $$ 上下做差 $$ y_{i2} - y_{i1} = \delta_0 + \beta_1(x_{i2} - x_{i1}) + (u_{i2} - u_{i1})\ \to \triangle y_i = \delta_0 + \beta_1 \triangle x_i + \triangle u_i $$ 该方程称为一阶差分方程,要想估计$\beta_1$,最重要的假定就是$\triangle u_i$与$\triangle x_i$无关,如果在每个时期,特异性误差$u_{it}$与这两个时期解释变量都无关,那么这个假定就是正确的(这其实就是时间序列的TS.3的严格外生假定),通过该方程估计出的$\beta_1$的估计量称为一阶差分估计量;
值得注意的是$\triangle u_i$与$\triangle x_i$无关的假设不一定合理,但是加入更多的控制变量总是对的...
失业率与犯罪率的例子
即使我们的出发点不是非观测效应模型,利用不同时期的差分的另一个视角是: 我们不去估计一个标准的横截面关系(这会遇到遗漏变量的困扰,以致难以做出其他条件不变的结论);而是通过差分方程,明确地考虑解释变量在不同时期的变化如何影响y在同一时期内的变化;
破案率与犯罪率的例子
两时期面板数据做政策分析的一般步骤
再理解对照组实验组的思想,在项目评估背景中,在第一时期先得到个人、企业等单位的一个样本集;在第二个时期,其中的一部分个人、企业参与下一时期举办的某个项目,那些不参与项目的单位则作为对照组;
构造最简单的非观测效应模型 $$ y_{it} = \beta_0 + \delta_0 d_2 + \beta_1 x_{it} + a_i + u_{it} $$ 其中$y_{it}$为结果变量,$d_2$为为时期的虚拟变量,$x_{it}$为项目参与的虚拟变量;将第二期与第一期差分便得到: $$ \triangle y_i = \delta_0 + \beta_1 \triangle x_{i} $$ 如果项目参与仅发生在第二个时期,那么在差分方程中$\beta_1$就有一个非常简单的表达式: $$ \hat{\beta_1} = \bar{\triangle y_{treat}} - \bar{\triangle y_{control}} $$
注意
并不是说项目只能发生在一个时期,两个时期的不同(不完全相同就行)个人、企业等参与了项目,也能进行政策分析;
项目发生在第二个时期的例子
项目发生在两个时期的例子
多于两期的政策分析
注意差分的时候是用相邻两期来做差分,对于N个截面单位和T期数据,如果将差分方程写成一个整体 $$ \triangle y_{it} = \alpha_0 + \alpha_3 d3_t + \alpha_4 d4_t + \ldots + \alpha_T dT_t + \beta_1 \triangle x_{it1} + \beta_2 \triangle x_{it2} + \cdots + \beta_k \triangle x_{itk} + \triangle u_{it} \ t=2,3,\dots,T $$
在这个一阶差分方程中,每个单位i有T-1个时期的数据,总共有$N(T-1)$个观测
多期的政策分析例子
企业园对失业贴补申请的影响
北卡罗来纳州的犯罪率
核心解释变量与时期交互
我们除了想知道核心解释变量在不同时期对被解释变量的影响,我们还想知道不同时期核心解释变量的斜率系数是否相同,这时候就要求我们对解释变量与时期虚拟变量的交互项做检验;这时候要采用邹至庄检验(本质是F检验)对一阶差分方程进行检验;
注意
虽然我们不能估计那些不随时间而变化的变量的斜率,但仍可以检验这些不随时间而变化的变量的偏效应是否随着时间而变化;
一阶差分面板数据的缺陷
- 解释变量根本不随时间变化,这种方法就毫无作用
- 有回归元严格外生的假定
- 若一个或多个解释变量存在测量误差,对含有测量误差的解释变量进行差分,相对差分误差来说,会导致更大的偏误