多元回归分析--潘登同学的计量经济学笔记
多元线性回归模型
$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_kx_k + u $$
- 关键假定 $$ E(u|x_1,x_2,\ldots,x_k) = 0 $$ 这个假定意味着方程中的不可观测的误差项中的所有因素都与解释变量无关。还意味着,我们已经正确地解释了被解释变量和解释变量之间的函数关系
普通最小二乘法得到OLS估计值
$$ \hat{y} = \hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + \cdots + \hat{\beta_k}x_k $$
上式被称为OLS回归线或样本回归函数;
目标:残差平方和最小 $$ \argmin \sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik}))^2 $$
对每个$\hat{\beta}$求导 $$ \begin{cases} 2\sum_{i=1}^n(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\ 2\sum_{i=1}^nx_{i1}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\
\cdots\ 2\sum_{i=1}^nx_{ik}(y_i-(\hat{\beta_0} + \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2} + \cdots + \hat{\beta_k}x_{ik})) = 0\ \end{cases} $$
上式通常被称为OLS的一阶条件;
对OLS回归方程的解释
(以两个解释变量为例,考虑如下OLS回归线) $$ \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_1}x_2 $$
估计值$\hat{\beta_1}和\hat{\beta_2}$具有偏效应:从方程中我们可以得到 $$ \triangle\hat{y} = \hat{\beta_1}\triangle x_1 + \hat{\beta_2}\triangle x_2 $$ 因此我们能在给定$x_1与x_2$的变化的情况下,预测$y$的变化,特别地,当$x_2$固定,即$\triangle x_2=0$时,可以得到 $$ \triangle\hat{y} = \hat{\beta_1}\triangle x_1 $$
这样的解释就是多元线性回归的有用之处了,所以我们得到$x_1$的系数可以解释为:在其他条件不变的情况下$x_1对y$的影响,这样就能实现控制变量的目的。
多元线性回归中"保持其他因素不变”的含义
多元回归分析的作用:尽管不能在其他条件不变的情况下收集数据,但它提供的系数仍可做其他条件不变的解释。(其内在逻辑是:社会科学的数据往往不是在实验条件下获取的,往往不能保证一个量不变去分析另外一个变量,而多元回归分析可以实现这样的有效模拟)
OLS的拟合值和残差的性质(由单变量推广)
- 1.残差的样本均值为零 $$ \bar{y} = \bar{\hat{y}} $$
- 2.每个解释变量与OLS残差的样本协方差为零,故OLS拟合值和OLS残差之间的样本协方差也为零 $$ \sum_{i=1}^n x_{ij}\hat{u_i} = 0 (j=1,2,\ldots,k)\ \sum_{i=1}^n \hat{y_{i}}\hat{u_i} = 0 \ $$
- 3.点$(\bar{x_1},\bar{x_2},\ldots,\bar{x_k},\bar{y})$总是位于OLS回归线上 $$ \bar{y} = \hat{\beta_0} + \hat{\beta_1}\bar{x_1} + \hat{\beta_2}\bar{x_2} + \cdots + \hat{\beta_k}\bar{x_k} $$
对多元回归“排除其他变量影响”的解释
(以两个解释变量为例,考虑如下OLS回归线) $$ \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 $$
- $\beta_1$的一种表达形式 $$ \hat{\beta_1} = \frac{\sum_{i=1}^n\hat{r_{i1}}y_i}{\sum_{i=1}^n\hat{r_{i1}}^2} $$
其中,$\hat{r_{i1}}$是利用现有样本将$x_1$对$x_2$进行简单回归的得到的OLS残差,然后再利用$y对\hat{r_{i1}}$进行简单回归就能得到$\hat{\beta_1}$
推导
$x_1$对$x_2$进行简单回归 $$ \hat{x_1} = \hat{\alpha_0} + \hat{\alpha_1}x_2\ \hat{r_{i1}}=x_{i1}-\hat{x_{i1}} $$ 用$\hat{x_{i1}} + \hat{r_{i1}}$代替$x_{i1}$带回方程 $$ \hat{y} = \hat{\beta_0}+ \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}}) + \hat{\beta_2}x_2 $$ 对上式进行一整套OLS的一阶条件,现只考虑对$\hat{\beta_1}$求偏导的步骤 $$ \sum_{i=1}^n(\hat{x_{i1}} + \hat{r_{i1}})(\hat{y}-(\hat{\beta_0}+\hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 $$ 因为$\hat{x_{i1}}$是解释变量$x_{i2}$的线性函数,根据性质2,有$\sum_{i=1}^n\hat{x_{i1}}\hat{u_i} = 0$ $$ \sum_{i=1}^n\hat{r_{i1}}(\hat{y}-(\hat{\beta_0}+ \hat{\beta_1}x_{i1} + \hat{\beta_2}x_{i2}))=0 $$ 又因为$\hat{r_{i1}}$是$x_1对x_2$的回归残差,有$\sum_{i=1}^n{x_{i2}}\hat{u_i} = 0$,$\sum_{i=1}^n\hat{u_i} = 0$ $$ \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}x_{i1}) = \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}(\hat{x_{i1}} + \hat{r_{i1}})) =0 $$ 又因为$\hat{r_{i1}}$是$x_1对x_2$的回归残差,有$\sum_{i=1}^n{x_{i1}}\hat{r_{i1}} = 0$ 则$\hat{\beta_1}$是下式的解: $$ \sum_{i=1}^n\hat{r_{i1}}(\hat{y}- \hat{\beta_1}\hat{r_{i1}}) =0\ \Rightarrow \hat{\beta_1} = \frac{\sum_{i=1}^n\hat{r_{i1}}y_i}{\sum_{i=1}^n\hat{r_{i1}}^2} $$
$\beta_1$的另一种偏效应解释
残差$\hat{r_{i1}}$是$x_{i1}$中与$x_{i2}$不相关的部分(或者说$\hat{r_{i1}}$排除了$x_{i2}$影响之后的部分),于是$\beta_1$度量了在排除$x_{i2}$影响之后$y和x_1$之间的样本关系。更一般地,在有k个解释变量的一般模型中,$\hat{r}$来自$x_1$对$x_2,\ldots,x_k$的回归,于是$\hat{\beta_1}$度量的是,在排除$x_1$对$x_2,\ldots,x_k$等变量的影响后,$x_1对y$的影响。排除的结果通常被称为弗里施-沃定理
拟合优度
$$ SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 $$ 同理,有 $$ SST = SSE + SSR $$ 拟合优度$R^2$ $$ R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} $$ 可以证明:$R^2$等于$y_i$实际值与其拟合值$\hat{y_i}$的相关系数的平方 $$ R^2 \equiv \frac{(\sum_{i=1}^n(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}}))^2}{\sum_{i=1}^n(y_i-\bar{y})^2\sum_{i=1}^n(\hat{y_i}-\bar{\hat{y}})^2} $$
简单回归和多元回归估计值的比较
(以两个解释变量为例)
如果$y$只对$x_1$进行简单回归 $$ \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 $$ 而对$x_1和x_2$进行多元回归 $$ \hat{y} = \hat{\beta_0}+ \hat{\beta_1}x_1 + \hat{\beta_2}x_2 $$
$\tilde{\beta_1}$通常不等于$\hat{\beta_1}$,而存在如下关系: $$ \tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1} $$ 其中, $\tilde{\delta_1}$是$x_2对x_1$进行简单回归的斜率系数
但在下列两种情形下,$\tilde{\beta_1}$会与$\hat{\beta_1}$相等:
- 1.样本中$x_2对y$的偏效应为0,即$\hat{\beta_2}=0$
- 2.样本中$x_1和x_2$不相关,即$\tilde{\delta_1}=0$
OLS估计值的期望值
有4个假定,因为简单线性模型也可以写作MLR,后面就用MLR来表示
- 假定
- MLR.1 (线性于参数) $$ 总体模型\ y = \beta_0 + \beta_1x + u $$
- MLR.2 (随机抽样)
横截面数据的样本都是随机抽样的结果
- MLR.3 (不存在完全共线性)
在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系,举几个例子
+ 这个可以:
$$
y = \beta_0 + \beta_1x + \beta_2x^2 + u
$$
+ 这个不行:
$$
y = \beta_0 + \beta_1\log(x) + \beta_2\log(x^2) + u
$$
+ 这个也不行:
$$
y = \beta_0 + \beta_1 expand_A + \beta_2 expand_B + \beta_3 expense_{Total} + u
$$
- MLR.4 (零条件均值) $$ E(u|x_1,x_2,\ldots,x_k) = 0 $$
当假定4成立时,我们常说具有外生解释变量;但若$x_j与u$相关,那么$x_j$就称为内生解释变量;
定理
OLS估计量的无偏性
在MLR.1至MLR.4下,下式对总体参数$\beta_j$的任意值都成立 $$ E(\hat{\beta_j}) = \beta_j,j=0,1,\ldots,k $$
注意
: 不能说一个估计值是无偏的,因为一个估计值就是从一组特定样本得到的一个固定值;我们只能说保持MLR.1至MLR.4假定的估计值的程序是无偏的,所以认为我们的估计也是无偏的;
在回归模型中包含了无关变量
前提:满足MLR.1至MLR.4假设
模型: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + u $$ 其中,$x_3$是无关变量;
结论:不会影响OLS估计量的无偏性 $$ E({\hat{\beta_0}}) = \beta_0\ E({\hat{\beta_1}}) = \beta_1\ E({\hat{\beta_2}}) = \beta_2\ E({\hat{\beta_3}}) = 0\ $$
遗漏变量的偏误:简单情形
(遗漏了一个实际上应包括在真实(总体)模型中的变量)
- 误设分析(遗漏了一个重要变量)
假设总体模型: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_x + u $$
而现在模型: $$ \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u $$
由前面(简单回归与多元回归的比较)
$$
\tilde{\beta_1} = \hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1}
$$
推导
$bias(\tilde{\beta_1})$
$$
E(\tilde{\beta_1}) = E(\hat{\beta_1} + \hat{\beta_2}\tilde{\delta_1})
=E(\hat{\beta_2})+E(\hat{\beta_2})\tilde{\delta_1} = \beta_1 + \beta_2\tilde{\delta_1}\
\Rightarrow bias(\tilde{\beta_1}) = E(\tilde{\beta_1}) - \beta_1 = \beta_2\tilde{\delta_1}
$$
称为遗漏变量偏误,此时的偏误源自遗漏的解释变量$x_2$
由于$\tilde{\delta_1}$是$x_1和x_2$之间的样本协方差与$x_1$的样本方差之比
- 若$x_1与x_2$不相关,那$\tilde{\delta_1}=0$
(重要理解)换句话说,若$E(x_2|x_1) = E(x_2)$,那么$\tilde{\beta_1}$的无偏性无须以$x_{2}$为条件;于是在估计$beta_1$时,只需调整截距,将$x_2$放到误差项中就不违背误差项条件均值为零的假定’
- 补充:遗漏变量$x_2$,$\tilde{\beta_1}$的偏误表
$Corr(x_1,x_2)>0$ | $Corr(x_1,x_2)<0$ | |
---|---|---|
$\beta_2>0$ | 偏误为正 | 偏误为负 |
$\beta_2<0$ | 偏误为负 | 偏误为正 |
在经济学经验研究时,与偏误相关联的术语:
- 当$E(\tilde{\beta_1})>\beta_1$时,有向上的偏误
- 当$E(\tilde{\beta_1})<\beta_1$时,有向下的偏误
- 还有向零的偏误,表示估计值相对于真值更接近零
遗漏变量的偏误:一般情形
更一般地,我们讨论k个变量下,遗漏了第l个变量的情形
假设总体模型: $$ y = \beta_0 + \beta_1x_1 + \cdots + \beta_kx_k + u $$
现在的模型: 遗漏变量$x_l$,对第j个变量有,
$$ \begin{aligned} \tilde{\beta_j} &= \hat{\beta_j} + \hat{\beta_l}\tilde{\delta_j}\ &= \hat{\beta_j} + \hat{\beta_l}\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})\sum_{i=1}^n(x_{il}-\bar{x_l})}{\sum_{i=1}^n(x_{ij}-\bar{x_j})^2} \end{aligned} $$ 其中, $\tilde{\delta_j}$是$x_l$对$x_j$简单回归得到的系数
还是两个例外,除非$\beta_l=0或\tilde{\delta_j}=0$,否则$\tilde{\beta_j}$就是$\beta_j$的有偏估计
OLS估计量的方差
在MLR.1-MLR.4的基础上再加入一个同方差假定
- MLR.5 (同方差性) 给定解释变量的任何值,误差都具有相同的方差 $$ Var(u|x_1,x_2,\ldots,x_k) = \sigma^2 $$
MLR.1-MLR.5被称为横截面回归的高斯-马尔科夫假定
结论:(抽样方差) $$ Var(\hat{\beta_j}) = \frac{\sigma^2}{SST_j(1-R_j^2)} $$
其中,$R_j^2$是$x_j$对其他所有自变量进行回归,得到的$R^2$,而$SST_j$衡量的是$x_j$的总样本的波动
OLS方差的成分:多重共线性
$Var(\hat{\beta_j})$是由3个因素影响:$\sigma^2,SST_j和R_j^2$
- 误差方差$\sigma^2$:$\sigma^2$是总体的一个特征,与样本容量无关(对给定的y,只能通过增加更多的解释变量来减少误差)
- $x_j$的总样本波动$SST_j$:$x_j$的样本波动越大越好(与简单回归类似)
- 自变量之间的线性关系$R_j^2$:$R_j^2$越接近1,则表示其他变量解释了$x_j$的大部分波动,那么就相当于去掉了$x_j$
$Var(\hat{\beta_j})$的最小值条件:
- 1.给定$\sigma^2,SST_j$
- 2.$x_j$与其他解释变量的样本相关系数为0
所以我们的解释变量两两间越无关拟合效果越好,这与我们在做PCA时,选取的变量两两正交一致;
- 多重共线性则指的是与之相反的情形 $$ R_j^2 \rightarrow 1,则Var(\hat{\beta_j})\rightarrow \infty $$ 特别地,$R_j^2 = 1$当这样就违反了我们的MLR.3
注意
有时候多重共线性对我们的分析没有太大影响,假如一个含有3个解释变量的回归模型,其中$x_2与x_3$高度相关,那么$Var(\hat{\beta_2})与Var(\hat{\beta_3})$都很大,但若$x_1与x_2、x_3$无关,无论$x_2与x_3$如何相关,$Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1}$,我们只关心的是$\beta_1$
多重共线性的后果及修正措施
- 对于完全的多重共线性,后果是无法估计
- 对于高度多重共线性,理论上不影响OLS估计量的最优线性无偏性。但对于个别样本的估计量的方差放大,从而影响了假设检验(t检验和F检验)
实际后果:
- 回归结果联合显著,但个别系数不显著
- 估计量的方差放大,置信区间变宽,t统计量变小
- 对于样本内观测值的微小变化极为敏感
- 某些系数的符号可能不对,难以解释解释变量对被解释变量的贡献程度
补救措施:
- 剔除不重要变量
- 增加样本数量
- 改变模型形式
- 进行变量替换
- 利用先验信息
- 其他方法
衡量多重共线性的统计量
- 方差膨胀因子(VIF) $$ VIF_j = \frac{1}{1-R_j^2} $$ 一般会选用10作为临界值,越小越好
则$Var(\hat{\beta_1})$可以表示为 $$ Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_j}VIF_j $$
遗漏变量模型中的方差
(遗漏了一个实际上应包括在真实(总体)模型中的变量)
假设总体模型: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_x + u $$
而现在模型: $$ \tilde{y} = \tilde{\beta_0} + \tilde{\beta_1}x_1 + u $$
则有: $$ Var(\hat{\beta_1}) = \frac{\sigma^2}{SST_1(1-R_1^2)},Var(\tilde{\beta_1}) = \frac{\sigma^2}{SST_1} $$
- 1.若$x_1与x_2$不相关,$\hat{\beta_1}和\tilde{\beta_1}$就是同一个估计量
2.若$x_1与x_2$相关,(即$1-R^2 < 1$)
若$\beta_2\neq0$,$\tilde{\beta_1}$有偏,$\hat{\beta_1}$无偏,且$Var(\tilde{\beta_1})
解释:而$\beta_2\neq0$,不把$x_2$放到模型里面就会导致$\beta_1$的估计量有偏误,但放进去又会增大方差,所以这是一个权衡问题,而两个有利的原因让我在模型中包括$x_2$
- 1.$\tilde{\beta_1}$中的偏误不会随着样本容量的扩大而缩减,但随着n的增大,$Var(\tilde{\beta_1})、Var(\hat{\beta_1})$都会缩小至零($\tilde{\beta_1}$存在永远无法克服的无偏性问题,但随着n增大,$\tilde{\beta_1}$的一致性就能被满足)
- 2.如果不把$x_2$放到模型里面就会误差项因为包含了$x_2$而导致误差方差提高,这样就导致$Var(\tilde{\beta_1})$的分子扩大,从而大小比较不确定,这需要进一步讨论;但是更简单的理解是,这样就破坏了MLR.5的同方差假定;
若$\beta_2=0$,$\tilde{\beta_1}$和$\hat{\beta_1}$都无偏,且$Var(\tilde{\beta_1})
解释:说明如果$x_2对y$没有偏效应,那么将它放到模型里,只会增加多重共线性,从而导致$\beta_1$的估计量效率较低,估计量方差较高。
OLS估计量的标准误(估计$\sigma^2$)
按照简单回归的思路:因为$\sigma^2 = E(u^2)$,但我们无法观测到误差项,用残差代替误差
- $\sigma^2$的无偏估计量 $$ \hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i^2}}{n-k-1} = \frac{SSR}{n-k-1} $$
注意到自由度是$n-k-1$,是因为有n个样本,k+1个约束 $$ \begin{cases} \sum_{i=1}^n\hat{u_i}=0\ \sum_{i=1}^nx_{ij}\hat{u_i}=0,j=1,2,\ldots,k \end{cases} $$
- $\sigma^2$的无偏估计量
在MLR.1-MLR.5下, $$ E(\hat{\sigma^2}) = \sigma^2 $$
$\hat{\sigma}$称为回归标准误(SER)
对于上面的遗漏变量的方差的情形,我们也可以反过来看,看作在原本的方程中新增一个解释变量,此时$\hat{\sigma}$可能增大或减小,这是因为新加一个解释变量,$SSR$会减小,而自由度也会减小,分子分母都减小;
而新增的解释变量的$\hat{\beta_j}$的标准差为(后面做构造置信区间的时候有用) $$ sd(\hat{\beta_j}) = \frac{\sigma}{[SST_j(1-R_j^2)]^{1/2}} $$ 由于$\sigma$未知,用估计量代替 $$ se(\hat{\beta_j}) = \frac{\hat{\sigma}}{[SST_j(1-R_j^2)]^{1/2}} $$ 上式称为$\hat{\beta_j}$的标准误
注意
如果误差表现出异方差性,上式标准误就不是可靠估计量
通常会这样改写$se(\hat{\beta_j})$ $$ se(\hat{\beta_j}) = \frac{\hat{\sigma}}{\sqrt{n}sd(x_j)\sqrt{1-R_j^2}} $$
其中, $$ sd(x_j) = \sqrt{\frac{\sum_{i=1}^n(x_{ij}-\bar{x_j})}{n}} $$
这样的改写能说明样本量是以$\frac{1}{\sqrt{n}}$的速率使标准误收敛至零的;
OLS的有效性
在MLR.1-MLR.5的假定下,我们的得到的OLS估计量$\hat{\beta_j}$是最优线性无偏估计量,总之就是,没有比他更好的估计量;