模型设定问题--潘登同学的计量经济学笔记
函数误设问题
假如真正的小时工资为 $$ \log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 exper^2 + u $$
如果漏了一个平方项$exper^2$,那么用OLS估计出的$\beta_0,\beta_1,\beta_2$都会产生偏误
基于前面所学的知识,可以有以下解决步骤
- 先做那个遗漏变量的OLS估计,得到参数估计量
- 将显著变量的平方项添加入模型
- 对新模型做OLS估计,做联合显著性检验(加一个做一次)
注意
显著的平方项可能又是函数仍存在误设的征兆,但实际上,对变量用对数形式,或者平方形式就已经足够揭示经济学中的非线性问题了
RESET -- 对函数误设的检验
为了检验一般的函数形式误设,Ramsey提出了回归假定误差检验(regression specification error test, RESET)
- 如果原模型满足MLR.1-4 $$ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + u $$
那么在方程中添加自变量的非线性关系应该是不显著的; 那么我们就考虑在模型中加二次项构建一个扩大回归,但是如果我就加入解释变量的二次项,那就会造成自由度急剧下降,因为每一项都用掉了一个自由度;而且加二次项也不完全能反映所有的非线性关系,可能还得加三次项等等
- 构建扩大回归
不在模型中加解释变量的二次项,而是加入拟合值的二次项与三次项
$$ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \delta_1 \hat{y}^2 + \delta_2 \hat{y}^3 + u $$
其中$\hat{y}$是原估计拟合值
使用F检验
原假设$H_0:\delta_1=0 , \delta_2 = 0$
构造F统计量:(也可以用LM统计量) $$ F \equiv \frac{SSR_r - SSR_{ur}}{SSR_{ur}} \cdot \frac{n-k-3}{2} $$
作出判断 在大样本条件下,F统计量近似服从$F_{2,n-k-3}$。如果F统计量显著,则表明存在函数误设
RESET的作用及缺陷
作用:
- RESET可以作为选择方程形式的判断条件(以拒绝或不拒绝为限)
缺陷:
- 当模型被拒绝后,他并不能为我们提供模型设定的指导方向
- 只要遗漏变量的期望值是模型中所包括自变量的线性函数,RESET就无法检验出变量遗漏问题
- 只要正确设定函数形式,RESET对于检验异方差性就无能为力
对非嵌套模型的检验
如果想从两个模型(水平值、对数值)中选择一个,如 $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u \ \log(y) = \beta_0 + \beta_1 \log(x_1) + \beta_2 \log(x_2) + u \ $$
或者这么说,用前一个模型(水平值)去检验后一个模型(对数值)是否有误设
构造综合模型
沿用之前嵌套模型F检验的思想,构建一个综合模型(Mizon and Richard[1986]) $$ y = \beta_0 + \delta_1 x_1 + \delta_2 x_2 + \beta_1 \log(x_1) + \beta_2 \log(x_2) +u \ $$
那么原假设为$H_0: \delta_1 = 0, \delta_2 = 0$, 构造F统计量,进行判断...
戴维斯-麦金农检验(Davidson and MacKinnon[1981])
思路与上面的RESET很相似: 若后一个模型(对数值)是正确的,那么前一个模型(水平值)的拟合值放进后一个模型中应该是不显著的;
- 将用于检验的模型进行OLS估计,得到拟合值$\hat{y}$ $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u $$
- 将$\hat{y}$加入被检验模型 $$ \log(y) = \beta_0 + \beta_1 \log(x_1) + \beta_2 \log(x_2) + \theta_1 \hat{y} +u \ $$
- 对$\hat{y}$计算t统计量,若结果显著,则表明被检验模型是误设的
注意
就算被检验模型(对数值)是误设的,也不能说检验模型(水平值)不是误设的; 要想得到该结论,还应将两者的角色互换一下,再做一次检验
非嵌套模型检验的问题
- 可能两个模型都被拒绝,那么我们可以使用调整$R^2$来进行选择。 但是我们不是一味地最求高的$R^2$,只要两个模型在关键解释变量对y的影响没有较大差异,选哪个都可以
- 检验一次只能说明被检验模型是误设的,不能说明另一个不是误设的,想说明另一个不是误设的,要再做一次检验
代理变量
考虑如下小时工资模型 $$ \log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 abil + u $$ 在这个模型中,我们想知道在能力(abil)不变的条件下,度量教育年限与工作年限对小时工资的影响
但问题是: 我们无法得到abil
的相关数据,而把abil
放到u
中又会导致$\beta_1,\beta_2$有偏误
实际上,我们只对$\beta_1,\beta_2$感兴趣,对$\beta_0,\beta_3$不感兴趣(abil只是控制变量而已)
找到代理变量
我们可以找到abil
的一个代理变量,某种程度上,可以用IQ
作为abil的代理变量,考虑原方程
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + u
$$
将$x_3$用代理变量$x_3^$替换
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3^ + u \quad ()
$$
而$x_3^$与$x_3$应具有以下关系(且$\delta_1$不能为0,如果为0,说明$x_3^$不是一个好的代理变量)
$$
x_3 = \delta_0 + \delta_1 x_3^ + v
$$
对$()$做OLS估计,称之为遗漏变量问题的植入解; 即使$x_3^{}$与$x_3$相关,但$x_3^{*}$毕竟不是$x_3$,到底使用了代理变量后$\beta_1.\beta_2$还是不是一致估计量,那么还需要做出以下假定
- 误差$u$与$x_3^$不相关,这样才能使$()$满足MLR.1-4
- 误差$v$与$x_1,x_2,x_3,x_3^$不相关,$v$与$x_3,x_3^$不相关是已知的,而$v$与$x_1,x_2$不相关则说明$x_3^$是$x_3$的一个'好'的代理变量。用期望表述为 $$ E(x_3|x_1,x_2,x_3^) = E(x_3|x_3^) = \delta_0 + \delta_1 x_3^ $$ 上式也可以理解为,排除多重共线性($x_1,x_2$不能作为$x_3$的代理变量)
使用代理变量,改写模型,使用OLS估计即可 $$ y = \alpha_0 + \beta_1 x_1 + \beta_2 x_2 + \alpha_3 x_3 + e \ \alpha_0 = \beta_0 + \beta_3\delta_0 $$
用滞后变量作为代理变量
在一些过程中,我们猜测一个或者多个自变量与遗漏变量有关,而得到遗漏变量的代理变量却很困难;我们可以将早一期的被解释变量加入方程中进行控制(当然这就不是横截面数据了...)
这样做的逻辑是: 因为过去导致被解释变量值产生的很多变量,在现在仍然是起着类似作用的,只不过作用的大小需要被重新估计; 这种方法在政策分析非常有效
举个例子,考虑以下解释城市犯罪率的方程 $$ crime_{t} = \beta_0 + \beta_1 unem + \beta_2 expend + \beta_3 crime_{t-1} + u $$
我们可以这样解释$\beta_2$, 如果两个城市过去拥有相同的犯罪率,现在拥有相同的失业率,那么$\beta_2$就衡量了执法支出增加1单位对犯罪率的影响
随机斜率模型
在做回归模型的时候,我们一直都假定总体与个体拥有相同的斜率系数; 如果一个变量的偏效应取决于那些随着总体单位的不同而不同的无法观察因素
(简单起见)假设从总体中随机抽取的个体i,有以下模型($a_i$与$b_i$被视为跟随着$(x_i,y_i)$的随机变量),被称为随机斜率模型 $$ y_i = a_i +b_i x_i $$
- 使用一个样本容量为n的随机样本,则(暗含着)我们同时抽取了$n$个$a_i$和$b_i$,我们希望估计平均斜率(截距) $$ \alpha = E(a_i), \beta = E(b_i) $$
将$\beta$称为平均偏效应(Average partial effect,APE)
- 通过$c_i,d_i$衡量个体与平均的偏离水平 $$ a_i = \alpha + c_i , E(c_i)=0\ b_i = \beta + d_i , E(d_i)=0\ $$
那么就得到 $$ y = a + \beta x_i + c_i + d_i x_i \equiv \alpha + \beta x_i +u_i \quad (*) $$
其中,$u_i = c_i + d_i x_i$,所以$u_i$表示观测不到的误差,就可以理解为是个体偏离总体的误差
无偏估计
我们希望$y_i$对$x_i$进行简单回归就能得到$\beta,\alpha$的无偏估计; 根据MLR.1-4,当$E(u_i|x_i) = 0$,那么OLS是无偏的 $$ E(u_i|x_i) = E(c_i + d_i x_i|x_i) = E(c_i|x_i) + E(d_i x_i|x_i) \ 无偏 \Longleftrightarrow E(c_i|x_i) = E(c_i) = 0, E(d_i|x_i) = E(d_i) = 0 \ \quad \ 改写为\Rightarrow E(a_i|x_i) = E(a_i), E(b_i|x_i) = E(b_i) $$
结论: 容许斜率因个体而异,只要他们的均值独立于解释变量;那么OLS就能一致地估计斜率的总体平均值
异方差性
还是那个结论异方差性不影响无偏估计,上面的分析仍然正确; 考虑$(*)$,如果$Var(c_i|x_i) = \sigma^2_c, Var(d_i|x_i)=\sigma_d^2且Cov(c_i,d_i|x_i)=0$,则 $$ Var(u_i|x_i) = \sigma^2_c + \sigma_d^2 x_i^2 $$
除非$\sigma_d^2=0$,否则就会出现异方差; 处理方法就与异方差那里的一致(WLS + 稳健标准误)
注意
上式不是唯一导致异方差的原因,上式是在假设$a_i,b_i$都同方差的时候,得出的一定会产生异方差的结论
随机斜率模型总结
如果随机斜率独立或至少均值独立与解释变量,那么容许随机斜率模型是相当简单的
测量误差下的OLS
因变量的测量误差
考虑以下回归模型 $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + u $$
令$y^$表示对$y$的可观察度量,就比如$y$是家庭收入,而$y^$是每个家庭报告出来的家庭收入,这两者不一定相同
总体的测量误差为$e_0$,为观测值与实际值之差 $$ e_0 = y^* - y $$
将模型改写 $$ y^* = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + u + e_0 $$
- 无偏估计量
要使得OLS估计量为无偏估计量,则必须满足 $$ E(e_0|x_j) = 0, (j=1,2,\ldots,k) $$
- 一致估计量
要使得OLS估计量为一致估计量,则必须满足测量误差同方差 $$ Var(e_0|x_j) = \sigma_0^2 $$
总的来说,只要测量误差在统计上独立于每个解释变量,那么OLS估计量就是无偏、一致的。
解释变量的测量误差
考虑以下回归模型 $$ y = \beta_0 + \beta_1 x_1 + u $$
总体的测量误差为$e_1$,为观测值与实际值之差 $$ e_1 = x_1^* - x_1 $$
改写模型 $$ y = \beta_0 + \beta_1 x_1^* + (u - \beta_1 e_1) $$
- 无偏估计量,则必须满足 $$ Cov(u,e_1) = 0 \ E(u|x_1^) = E(u) = 0 \ E(u-\beta_1 e_1| x_1^) = E(u-\beta_1 e_1) = 0 $$
- 一致估计量,满足上面条件即可 $$ Var(u-\beta_1 e_1) = \sigma_u^2 + \beta_1^2 \sigma_{e_1}^2 $$
除非$\beta_1=0$,否则就会提高误差方差,但是不影响一致估计量
CEV经典变量误差
(这里仍然在讨论解释变量测量误差,只不过假定不同而已)
基本假定: 测量误差与无法观察的解释变量无关 $$ Cov(e_1,x_1) = 0 $$
那么就可以得到$e_1与x_1^$相关 $$ Cov(e_1,x_1^) = E(e_1x_1^*) = E(e_1x_1) + E(e_1^2) = \sigma_{e_1}^2 $$
所以$u - \beta_1e_1与x_1^$就相关 $$ Cov(x_1^,u - \beta_1e_1) = -\beta_1 Cov(x_1^*,e_1) = -\beta_1 \sigma_{e_1}^2 $$
因此,在CEV的假定下,y对$x_1^*$的回归将给出一个有偏又不一致的估计量
讨论其渐进性,其中利用了$Var(x_1^) = Var(x_1) + Var(e_1)$ $$ \begin{aligned} plim(\hat{\beta}_1) &= \beta_1 + \frac{Cov(x_1^,u-\beta_1 e_1)}{Var(x_1^*)} \ &= \beta_1 - \frac{\beta_1 \sigma_{e_1}^2}{\sigma_{x_1}^2 + \sigma_{e_1}^2} \ &= \beta_1 (\frac{\sigma_{x_1}^2}{\sigma_{x_1}^2 + \sigma_{e_1}^2}) \end{aligned} $$
因此,$plim(\hat{\beta}_1)比\beta_1$更接近0,这种情况被称为OLS因经典变量误差而导致的衰减偏误; 当然具体偏误多少还得看$\frac{\sigma_{x_1}^2}{\sigma_{e_1}^2}$,这个越大,那么偏误就越小
很容易证明,在多元回归中,只要有一个解释变量有测量误差,那么所有OLS估计都是有偏的
其他数据问题
数据缺失
如果一个观测缺失了其因变量或一个自变量的数据,那么这个观察就不能用于多元线性回归
如果数据是随机缺失的,那么其实不影响OLS估计,只是样本容量变少了; (被称为完全随机缺失(MCAR))
而基于一组仅针对$y$和$x_1,x_2,\ldots,x_k$的具有完整信息的的观测值的估计值,称为完整情况估计量
从完整情况估计遗漏序列中得到信息
- 对一个观测数据$t和x_1,x_2,\ldots,x_k$的数据可以获取,但是解释变量$x_n$会缺失
- 引入两个变量,
- 对第$i$条样本,第一个变量记为$z_{in}$当$x_n$被观测到了$z_{in}=x_n$,没有观测到$z_{in}=0$
- 对第$i$条样本,第二个变量称为‘数据缺失指标’ 记为$m_{in}$,当$x_n$缺失了$m_{in}=1$,否则为0
则回归模型为 $$ y = \beta_0x_1 + \beta_2x_2 + \ldots + \alpha_0z_{in} + \alpha_1 m_{in} + \ldots + \beta_k x_k $$
非随机样本
(在不是完全随机缺失的基础上深入讨论)
外生样本选择
外生样本选择是指缺失的数据是依赖于解释变量,如: 高IQ的人更容易获取其IQ数据;
但这种缺失除了导致样本容量的变小,不会对OLS估计量产生影响
内生样本选择
当缺失数据是依赖于被解释变量,OLS估计量就会产生偏误
如: 只去收集那些小时工资高的人群的数据
某些数据抽样方式会导致内生样本选择,其中之一就是‘分层抽样’:将总体分为互不重叠的组,然后对某些组过多抽样;但是也得区分到底是基于被解释变量过度抽样,还是基于解释变量过度抽样; 如果是前者,那么OLS估计量就会产生偏误;如果是后者,那么OLS估计无偏且一致