【计量经济学】时间序列回归中序列相关

作者: pdnbplus | 发布时间: 2024/06/16 | 阅读量: 291



【计量经济学】时间序列回归中序列相关 --潘登同学的计量经济学笔记

理清这一篇的目的,第一篇时间序列在TS.1-TS.3下证明了OLS的无偏性(但是TS.3的严格外生条件过于苛刻);在第二篇的时间序列回归渐进性在TS.1'-TS.3'下放松严格外生,转而向同期外生,证明了在弱相关的时候,OLS仍然是一致的(不一定无偏); 而这一篇就要放松TS.5与TS.5'的无序列相关性,而一旦出现序列无关,那么OLS估计量连渐进有效都谈不上.....

自相关

含义

$$ E(u_iu_j) \neq 0, i\neq j $$

在时间(时间序列数据)或者空间(横截面数据)按顺序所列观察值序列的各成员之间存在着相关。一般存在于时间序列数据中,但横截面数据中也可能产生自相关,如空间相关。

产生原因

  • 惯性:大多数经济时间序列的一个显著特征就是惯性(inertia)或迟缓性(sluggishness)。国民生产总值、就业、货币供给、价格指数等,都呈现商业循环。
  • 模型设定误差:遗漏重要变量和模型函数形式错误。
  • 蛛网现象:农产品供给是上期价格的函数。
  • 数据处理:加总和数据平滑。

自相关的后果

  1. OLS估计量仍然是线性和无偏的
  2. 误差方差估计量是有偏估计量(很可能是低估总体的方差)
  3. OLS估计量的方差是有偏的(很可能是低估真实的方差)
  4. OLS估计量不是有效的
  5. t检验和F检验不可靠
  6. $R^2$不能测度真实$R^2$
  7. 预测方差和标准差可能也是无效的

注意: 自相关是总体属性。随机误差项的方差和相关的产生机制是不知道的。(异方差是随机误差现象,多重共线性是样本现象)

含序列相关误差时OLS的性质

无偏性和有效性

只要解释变量是严格外生的,序列相关不影响$\hat{\beta}_j$的无偏性;当数据是弱相关的时候$\hat{\beta}_j$仍然是一致的(不一定无偏),这一结论不因误差序列相关而转移

有效性和推断

当误差出现序列相关时,OLS就不再是BLUE; 考虑如下模型 $$ y_t = \beta_0 + \beta_1 x_t + u_t $$ 为了简化公式,我们假定$x_t$的样本均值为0,于是$\beta_1$的OLS估计量$\hat{\beta}_1$可以写成 $$ \hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^{n}x_tu_t}{SST_x} $$ 其中$SST_x\sum_{i=1}^{n}x^2$,计算$\hat{\beta}_1$的方差,我们要解释$u_t$中的序列相关 $$ \begin{aligned} Var(\hat{\beta}_1) &= \frac{Var(\sum_{i=1}^{n}x_tu_t)}{SST_X^{-2}} \ &= \frac{\sum_{i=1}^{n}x_t^2Var(u_t) + 2\sum_{i=1}^{n-1}\sum_{i=1}^{n-t}x_tx_{t+j}E(u_tu_{t+j})}{SST_X^{-2}} \ &= \frac{\sigma^2}{SST_X^{-2}} + 2\frac{\sigma^2}{SST_x^2}\sum_{i=1}^{n-1}\sum_{i=1}^{n-t}\rho^jx_tx_{t+j} \end{aligned} $$ 其中$\sigma^2=Var(u_t)$,利用了$E(u_tu_{t+j}) = Cov(u_t,u_{t+j}) = \rho^j\sigma^2$。 如果我们把误差当成序列无关来估计,当$\rho \neq 0$时,方差估计是有偏的,因为它忽略了上式中的第二项。 $\rho^j > 0$是很常见的,此外回归模型中不同时期的自变量通常是正相关的,对于大多数时期的t和t+j来说,$x_tx_{t+j}$为正,所以$\frac{\sigma^2}{SST_x^2}\sum_{i=1}^{n-1}\sum_{i=1}^{n-t}\rho^jx_tx_{t+j}$大多为正,所以通常的OLS方差公式$\frac{\sigma^2}{SST_X^{-2}}$低估了OLS方差估计量的真实方差;

因为$\hat{\beta}_1$的标准误是${\beta}_1$的标准差的估计值,所以在出现序列相关的时候,使用通常的OLS标准误就不再有效。因此,检验单个假设的t统计量也不再有效,同理F和LM统计量也不再可靠

拟合优度

只要数据是平稳和弱相关的,那么拟合优度$R^2$和$\bar{R^2}$依然有效 $$ R^2 = 1 - \frac{\sigma_u^2}{\sigma_y^2} $$

在使用平稳而又弱相关数据的时间序列回归中,这个定义依然有效: 误差和因变量的方差都不随时间推移而变化。根据大数定律,$R^2$和$\bar{R^2}$都是总体$R^2$的一致估计(由于不存在$R^2$的一个无偏估计量(无论是否序列相关),所以谈$R^2$因序列相关所致偏误就没有意义)

纠正说法

在出现滞后因变量和序列相关的误差时,OLS是不一致的,这个命题是不正确的

假设给定$y_{t-1}$时$y_t$是线性的 $$ E(y_t|y_{t-1}) = \beta_0 + \beta_1 y_{t-1} $$ 其中我们假定了平稳性,即$|\beta_1|<1$,我们可以将模型写成 $$ y_t = \beta_0 + \beta_1 y_{t-1} + u_t \ E(y_{t-1}|u_t) = 0 $$ 以上模型满足OLS一致性所要求的关键假定TS.3';因此估计量$\hat{\beta}_0和\hat{\beta}_1$是一致估计量。而在这个模型中,我们没有假定任何的序列无关,但仍然是一致估计量。

而考虑如下模型 $$ u_t = \rho u_{t-1} + e_t, t=1,2,3,\ldots \ |\rho| < 1 \ y_t = \beta_0 + \beta_1 y_{t-1} + u_t \ E(e_t|u_{t-1},u_{t-2},\ldots) = E(e_t|y_{t-1},y_{t-2},\ldots) = 0 $$ 此时OLS就是不一致的,因为根据假定,$e_t与y_{t-1}$不相关,$Cov(y_{t-1},u_t) = \rho Cov(y_{t-1},u_{t-1})$,除非$\rho=0$,否则$\beta_0和\beta_1$的OLS估计量是不一致的

对于上面的模型,做出如下修改 $$ \begin{aligned} y_t &= \beta_0 + \beta_1 y_{t-1} + \rho(y_{t-1} - \beta_0 - \beta_1y_{t-2}) + e_t \ &= \beta_0 (1-\rho) + (\beta_1+\rho)y_{t-1} - \rho\beta_1 y_{t-2} + e_t \ &= \alpha_0 + \alpha_1 y_{t-1} + \alpha_2 y_{t-2} + e_t \end{aligned} $$ 则 $$ E(y_t|y_{t-1},y_{t-2},\ldots) = E(y_t|y_{t-1},y_{t-2}) = \alpha_0 + \alpha_1 y_{t-1} + \alpha_2 y_{t-2} $$ 所以我们能得出结论,当误差$u_t$服从AR(1)模型时,对原方程的OLS估计便得到不一致的估计量。但是当模型中包含了两期滞后时,原方程的OLS估计便得到$\alpha_j$的一致又渐近正态估计值。

问题的实质是: 我们需要为一个模型中既有滞后因变量又有序列相关的误差找到一个合适的理由。通常,动态模型误差中的序列相关,无非标志着没有完全给定动态回归函数..

序列相关的检验

检验如下多元线性回归模型中误差项是否序列相关 $$ y_t = \beta_0 + \beta_1 x_{t1} + \ldots + \beta_k x_{tk} + u_t $$

回归元为严格外生

回归元为严格外生时,要求误差$u_t$与所有时期的回归元都不相关。

AR(1)的t检验

  • 原假设$H_0: 不存在序列相关$

对于AR(1)来说 $$ u_t = \rho u_{t-1} + e_t $$ 原假设等同于检验$\rho=0$,进而可以用t检验的方式来检验$\hat{\rho}$; 但是因为我们无法观测到$u_t$,不过就像异方差性一样,我们可以用相应的OLS残差$\hat{u}_t$来代替$u_t$; 而$\hat{u}_t$是取决于估计量$\hat{\beta}_0,\hat{\beta}_1,\ldots$,所以在回归中用$\hat{u}_t代替u_t$,对t统计量的分布并非没有影响; 而根据严格外生性假定,结果t统计量的大样本分布不受OLS残差取代误差的影响;

回归元严格外生时AR(1)序列相关的检验

  • 做$y_t$对$x_{t1},\cdots,x_{tk}$的OLS回归,得到OLS残差$\hat{u}_t$
  • 做$\hat{u}_t对\hat{u}_{t-1}$的回归,得到系数$\hat{\rho}$及其t统计量
  • 按照t检验方法,去检验原假设$H_0:\rho=0$(实际上,由于$\rho>0$往往是更容易出现的,备择假设也可以选择为$H_1: \rho>1$

注意事项

  • 这种检验方法是从AR(1)模型中推导出来的, 但是这种检验方法也可以用于检验其他类型的序列相关。$\hat{\rho}$是$\hat{u}_t和\hat{u}_{t-1}$之相关系数的一致估计量,一方面,任何形式的序列相关,只要导致了相邻误差项彼此相关,使用这种检验方法都可以检验出来。 但是他无法检验出相邻误差无关即$Corr(\hat{u}_t,\hat{u}_{t-1})=0$的序列相关
  • 在使用t统计量的时候,要假定$AR(1)$满足同方差假定,如果不是,要转为使用异方差--稳健的t统计量

AR(1)的DW检验

基础假设

  1. 回归模型包括截距项
  2. X是非随机变量
  3. 扰动项的产生机制是 $$ u_i = \rho u_{i-1} + v_i $$
  4. 对自回归模型是不实用的,解释变量无因变量的滞后

AR(1)的序列相关的另一种检验方法是DW统计量,也是以OLS残差为基础的 $$ DW = \frac{\sum_{t=2}^n(\hat{u}_t-\hat{u}_{t-1})^2}{\sum_{t=1}^n\hat{u}_t^2} $$ DW统计量与$\hat{\rho}$有如下简单关系 $$ DW\approx2(1-\hat{\rho}) $$

而DW检验的备择假设是 $$ H_1: \rho\neq 0\ (\rho=1(d=4)完全正相关,\rho=0(d=0)完全负相关) $$ 根据DW统计量与$\hat{\rho}$的简单关系,我们希望找到一个显著小于2和不显著小于2的DW值,而DW的原分布比较难得到,我们将DW与两个临界值进行比较,分别是$d_U(上界),d_L(下界)$,若$DW < d_L$,则拒绝原假设; 若$DW > d_U$,则不拒绝原假设;若位于两者之间则无结论;(注意这只是检验了一边,另一边也是这样做)

正相关 不能确定 不相关 不能确定 负相关
$[0,d_L]$ $[d_L,d_U]$ $[d_U,2,4-d_U]$ $[4-d_U,4-d_L]$ $[4-d_L, 4]$

一般来说,$d_L = 0.8$,$d_U = 1.5$

DW检验的局限性

  1. 假设条件不一定成立
  2. 存在非决策区域
  3. 只检验一阶自相关

回归元不是严格外生

AR(1)的检验

当解释变量不是严格外生的时候,会有一个或者更多的$x_{tj}与u_{t-1}$相关,即使在大样本的情况下,回归中的t统计量和DW统计量都不再有效;

非严格外生回归元的一个重要情形是模型中包含滞后因变量的情况: $y_{t-1}和u_{t-1}$显著相关,当模型包含一个滞后因变量,而其他回归元都是严格外生时

检验步骤

  • 将$y_t$对$x_{t1},x_{t2},\ldots,x_{tk}$回归,得到OLS残差$\hat{u}_t$
  • 将$\hat{u}_t$对$x_{t1},x_{t2},\ldots,x_{tk},\hat{u}_{t-1}$回归,得到$\hat{u}_{t-1}$的系数$\hat{\rho}$及其t统计量
  • 用平常的t检验去检验原假设$H_0: \rho \neq 0$

其中$x_{t1},x_{t2},\ldots,x_{tk}$包括任何个数的滞后因变量,同时,还允许存在其他非严格外生的解释变量; 为了让t统计量对未知形式的异方差保持稳健,使用$\hat{u}_{t-1}$的异方差--稳健的t统计量就行

AR(q)的检验

上面的检验方法很容易拓展到更高阶序列相关的情况,假设我们想在AR(2)模型 $$ u_t = \rho_1u_{t-1} + \rho_2u_{t-1} + e_t $$ 中检验 $$ H_0 = \rho_1 = 0, \rho_2 = 0 $$

检验步骤

  • 做$y_t对x_{t1},\ldots,x_{tk}$的OLS回归,求出OLS残差$\hat{u}_t$
  • 将$\hat{u}_t$对$x_{t1},\ldots,x_{tk},\hat{u}_{t-1},\hat{u}_{t-2},\ldots,\hat{u}_{t-q}$回归$(*)$
  • 计算$\hat{u}_{t-1},\hat{u}_{t-2},\ldots,\hat{u}_{t-q}$的联合显著F统计量

注意事项

  • 该检验需要同方差假定$Var(u_t|X_t,u_{t-1},\cdots,u_{t-q}) = \sigma^2$,否则我们可以计算异方差--稳健的F统计量
  • 除此之外, 也可以用LM统计量来检验 $$ LM = (n-q)R^2_{\hat{u}} $$ $R^2_{\hat{u}}$是回归$(*)$中的$R^2$,在原假设下$LM \sim \chi^2(q)$,这通常被称为AR(q)的布罗施-戈弗雷检验。LM也要求同方差性,当然也有稳健统计量

序列相关的修正

在修正序列相关的时候主要的方法是GLS广义线性回归,前提得满足一个假设就是严格外生的回归元;

AR(1)的修正

在满足TS.1-TS.4,放宽TS.5假设误差服从AR(1)模型 $$ u_t = \rho u_{t-1} + e_t $$ 随机误差的方差为 $$ Var(u_t) = \frac{\sigma_e^2}{1-\rho^2} $$

以下式为例 $$ y_t = \beta_0 + \beta_1x_{t}+u_t $$

对上一期的方程乘上了$\rho$ $$ \rho y_{t-1} = \rho\beta_0 + \rho\beta_1x_{t-1}+ \rho u_{t-1} $$

上减下 $$ y_t - \rho y_{t-1} = (1-\rho)\beta_0 + \beta_1(x_t-\rho x_{t-1})+ u_t - \rho u_{t-1} $$

改写一下上式 $$ \tilde{y} = (1-\rho)\beta_0 + \beta_1\tilde{x}_t + e_t \qquad (*) $$ 其中,$\tilde{y} = y_t - \rho y_{t-1},\tilde{x}=x_t-\rho x_{t-1}$,上式被称为准差分数据,当$\rho=1$时就是差分数据

只要我们算出$\rho$,就能估计出$\beta_0,\beta_1$,得到的截距还要记得除以$(1-\rho)$;

但是上式还不是BLUE的OLS估计量,因为它没有利用第一个时期的数据,当$t=1$时 $$ y_1 = \beta_0 + \beta_1 x_1 + u_1 $$ 因为每个$e_t$与$u_t$无关,所以这个数据也可以一起加进$()$式中,而且仍然保持了序列无关,但是方差有所不同,$Var(u_t)=\frac{\sigma_e^2}{1-\rho^2}>\sigma_e^2 = Var(e_t)$,所以必须把上式乘上$(1-\rho^2)^{1/2}$,以使误差有相同的方差 $$ (1-\rho^2)^{1/2} y_1 = (1-\rho^2)^{1/2} \beta_0 + \beta_1 (1-\rho^2)^{1/2} x_1 + (1-\rho^2)^{1/2} u_1 \qquad (*) $$

最后综合$()与(*)$就能得到BLUE的$\beta_0,\beta_1$的估计量

总结GLS估计流程

  • 做$y_t$对$x_{t1},x_{t2},\ldots,x_{tk}$的OLS回归,求出OLS残差
  • 做$u_t$对$u_{t-1}$的回归,得到$\rho$
  • 做$\tilde{y}_t$对$\tilde{x}_{t0},\ldots,\tilde{x}_{tk}$的回归,得到$\beta_0,\beta_1.\ldots,\beta_k$。常见的标准误,t统计量,F统计量都是渐近有效的(其中$\tilde{y}_t= y_t - \rho y_{t-1}$,当$t\geq2$时,$\tilde{x}_{t0}=(1-\hat{\rho})$,$\tilde{x}_{10}=(1-\hat{\rho}^2)^{1/2}$.$\tilde{x}_{tj}=x_{tj}-\rho x_{t-1j}$

AR(q)的修正

以$AR(2)$为例 $$ u_t = \rho_1 u_{t-1} + \rho_2 u_{t-2} + e_t $$

在做差分之前,需要满足稳定性条件 $$ \rho_2 > -1,\rho_2 - \rho_1 <1, \rho_1 + \rho_2 <1 $$

  • 做$u_t$对$u_{t-1},u_{t-2}$的回归,得到$\hat{\rho_1},\hat{\rho_2}$
  • 做$\tilde{y}_t$对$\tilde{x}_{tj}$的回归,每个变量都需要做如下变换$\tilde{x}_{tj} = x_{tj}-\hat{\rho}_1 x_{t-1} - \hat{\rho}_2 x_{t-2}$
  • 而对前两个时期$t=1,2$的观测,还需要做同方差的变换,式子比较复杂(P335)需要的再看