简单回归模型--潘登同学的计量经济学笔记
方程及名称
简单形式: $$ y = \beta_0 + \beta_1 x + u $$
基本术语:
y | x | u | $\beta_0$ | $\beta_1$ |
---|---|---|---|---|
因变量 | 自变量 | 误差项 | 截距参数 | 斜率参数 |
被解释变量 | 解释变量 | 干扰项 | ||
相应变量 | 控制变量 | |||
被预测变量 | 预测变量 | |||
回归子 | 回归元 |
由两条基本假设推导最小二乘法
假设1:$E(u) = 0$
因为简单回归中的u表示的是随机干扰项,如果均值不为0,那起到的就不是一个随机干扰的作用,假若$E(u)\neq0$,也可以通过截距项$\beta_0$来将$E(u)$变为0
假设2:$E(u|x)=E(u)$
假设2其实想表达随机干扰项与解释变量x无关,因为是随机嘛,所以无关
将假设1、2合并,便得到零条件均值假定: $$ E(u|x) = 0 $$
现在改写方程 $$ E(y|x) = \beta_0 + \beta_1 x $$
矩估计求得$\beta_0$与$\beta_1$
由$E(u)=0$,有 $$ E[y-(\beta_0 + \beta_1 x)] = 0\ 即 \frac{\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1} x)}{n}=0\ \bar{y}-\hat{\beta_0}-\hat{\beta_1}\bar{x}=0\ \hat{\beta_0} = \bar{y}-\hat{\beta_1}\bar{x}......(1) $$ 由$E(ux)=0$,有 $$ E(x(y-(\beta_0 + \beta_1 x))) = 0\ 即 \frac{\sum_{i=1}^nx_i(y_i-\hat{\beta_0-\beta_1 x})}{n}=0\ 将上面\hat{\beta_0}的结果代入, \sum_{i=1}^nx_i(y_i-\bar{y})=\hat{\beta_1}\sum_{i=1}^nx_i(x_i-\bar{x})\ 根据\sum_{i=1}^nx_i(y_i-\bar{y}) = \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})和\sum_{i=1}^nx_i(x_i-\bar{x}) = \sum_{i=1}^n(x_i-\bar{x})^2\ 则改写为\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = \hat{\beta_1}\sum_{i=1}^n(x_i-\bar{x})^2\ 只要\sum_{i=1}^n(x_i-\bar{x})^2 \neq 0\ \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{COV(x,y)}{D(x)} = \hat{\rho_{xy}}(\frac{\hat{\sigma_x}}{\hat{\sigma_y}}) ......(2) $$
其中,$\hat{\rho_{xy}}$是x与y的相关系数,$\hat{\sigma_x} \hat{\sigma_y}$表示样本方差
(1)与(2)给出的估计值叫做$\beta_0与\beta_1$的普通最小二乘法(ordinary least squares, OLS)估计值。
为什么叫普通最小二乘法
定义残差: $$ \hat{u_i} = y_i - \hat{y_i} = y_i - (\beta_0 + \beta_1 x) $$
注意
残差与误差不是同一个东西,可以理解为一个是事前模型理想的值,而另一个则是事后估计与观察的差值
我们想要估计与观测尽可能的小,让残差平方和(SSR)最小即可 $$ \min_{\beta_0 , \beta_1}\sum_{i=1}^n \hat{u_i}^2 $$
- 问题:为什么是去优化残差平方和而不是绝对值或者4次方呢?
这个我们在多元线性回归MLR中,用极大似然估计推导过,可以看那个过程。
OLS统计量的代数性质
- 1.OLS残差和其样本均值都为0 $$ \sum_{i=1}^n \hat{u_i} = 0 $$
- 2.解释变量与OLS残差的样本协方差为零 $$ \sum_{i=1}^n x_i\hat{u_i} = 0 $$
- 3.点$(\bar{x},\bar{y})$总在OLS回归线上 $$ \bar{y} = \beta_0 + \beta_1 \bar{x} $$
SST、SSE、SSR
定义总平方和(Total sum of squares)、解释平方和(explained sum of squares)、残差平方和(residual sum of squares) $$ SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 $$
- SST度量了$y_i$中总样本的波动;这就是说,他度量了$y_i$在样本中的分散程度,将其除以$n-1$,便得到y的样本方差。
- SSE度量了$\hat{y_i}$的样本波动
- SSR度量了$\hat{u_i}$的样本波动,$y$的样本波动总能表示成解释了的波动和为解释的波动之和 $$ SST = SSE + SSR $$
推导
$$
\begin{aligned}
\sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n[(y_i-\hat{y_i})+(\hat{y_i}-\bar{y})]^2\
&= \sum_{i=1}^n[\hat{u_i}+(\hat{y_i}-\bar{y_i})]^2\
&= \sum_{i=1}^n\hat{u_i}^2 + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + \sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2\
&= SSR + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + SSE
\end{aligned}
$$
对于上式,只要$\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i})=0$就可以得证; $$ \begin{aligned} \sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) &= \sum_{i=1}^n\hat{u_i}\hat{y_i} - \hat{u_i}\bar{y_i} \ &= \sum_{i=1}^n\hat{u_i}\hat{y_i}\ &= \sum_{i=1}^n\hat{u_i}(\beta_0 + \beta_1 {x_i})\ &= \beta_1\sum_{i=1}^n\hat{u_i} {x_i}\ 由性质2,上式为0 \end{aligned} $$
拟合优度
当SST不为零时(只要y不全相等,SST就不为零) $$ R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} $$
$R^2$是可解释波动与总波动之比,$R^2$总是介于$[0,1]$越大拟合效果越好
$R^2$也可以用$y_i与\hat{y_i}$的样本相关系数的平方来计算,这也是$R^2$的由来
注意
在社会科学中,$R^2$过低是很正常的,特别是对于横截面分析来说,一个很低的$R^2$不代表OLS回归方程没有用,所以不需要过多的在意$R^2$的大小
在简单回归中加入非线性因素
我们想研究,解释变量$x$变化一个单位的时候被解释变量$y$变化的百分数,可以构建这样一个模型 $$ \log(y) = \beta_0 + \beta_1x + u $$
注意
$\log$表示的是自然对数,因为经济学家们都习惯用$\log$表示而不是$\ln$
- 问题:为什么$\log(y)$能表示变化的百分比
百分数变化: $x从x_0变到x_1$的百分比变化是: $$ \%△x = 100(\frac{x_1-x_0}{x_0}) = 100(\frac{△x}{x_0}) $$
核心不等式:在高中时期,我们学过这样一个不等式 $$ ln(x+1) \leq x (当且仅当x=0时,等式成立) $$
令$y_0与y_1$为两个正数,满足$y_1-y_0 \approx 0$,则有 $$ \log(y_1) - \log(y_0) = \log(\frac{y_1}{y_0}) = \log(1+\frac{△y}{y_0}) \approx \frac{△y}{y_0} $$
故我们只需要给$△log(y)$加个百分号就能反映变化的百分比了
常弹性模型
有了上面的知识,我们也可以去研究解释变量变化百分之一时,被解释变量变化百分之几,这就是常弹性模型 $$ \log(y) = \beta_0 + \beta_1\log(x) $$
弹性:y对x的弹性就是,当x变化百分之一时,y变化百分之几 $$ \beta = \frac{△\log(y)}{△\log(x)} $$ 这个$\beta$就能表示y对x的弹性啦
OLS估计的统计性质
OLS的无偏性
有4个假定,因为简单线性模型也可以写作SLR,后面就用SLR来表示
- 假定
- SLR.1 (线性于参数) $$ 总体模型\ y = \beta_0 + \beta_1x + u $$
- SLR.2 (随机抽样)
横截面数据的样本都是随机抽样的结果
- SLR.3 (解释变量的样本有波动)
x是不完全相等的数值,因为一旦全都相等,那$\hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}$的分母就会为0
- SLR.4 (零条件均值) $$ E(u|x) = 0 $$
前三个假定都是很自然而然的,假定4则是从开始一直沿用的。
定理
OLS估计量的无偏性
$$
\begin{aligned}
\hat{\beta_1} &= \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2}\
&= \frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2}\
&= \frac{\beta_0\sum_{i=1}^n(x_i-\bar{x}) + \beta_1\sum_{i=1}^n(x_i-\bar{x})x_i + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\
&= \frac{\beta_1SST_x + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x} = \beta_1 + \frac{1}{SST_x}\sum_{i=1}^nd_iu_i
\end{aligned}
$$
其中,$d_i = x_i - \bar{x}$,则$\hat{\beta_1}$的估计量等于总体斜率加上误差${u_1,u_2,\ldots,u_n}$的一个线性组合,以$x_i$为条件,$\hat{\beta_1}$的随机性完全来自于样本中的误差,这些误差一般都不为零的事实,正是$\hat{\beta_1}与\beta_1$有差异的原因;
利用SLR.1-SLR.4,对$\beta_0与\beta_1$的任何值,我们都有 $$ E(\hat{\beta_0}) = \beta_0,E(\hat{\beta_1}) = \beta_1 $$
- 对于$\beta_1$
$$
\begin{aligned}
E(\hat{\beta_1}) &= \beta_1+E(\frac{1}{SST_x}\sum_{i=1}^nd_iu_i)\
&= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nE(d_iu_i)\
&= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iE(u_i)\
&= \beta_1
\end{aligned}
$$
注意
在上面的推到过程中,期望值都以张自变量的样本值为条件。因为$SST_x和d_i$都只是$x_i$的函数,所以在它们在条件的作用下是非随机的。 - 对于$\beta_0$ $$ \begin{aligned} \hat{\beta_0} &= \bar{y}-\hat{\beta_1}\bar{x} \ &= \beta_0 + \beta_1\bar{x}+\bar{u}-\hat{\beta_1}\bar{x}\ E(\hat{\beta_0}) &= \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]\ &= \beta_0 \end{aligned} $$
OLS估计量的方差
在SLR.1-SLR.4的基础上再加入一个同方差假定
- SLR.5 (同方差性) 给定解释变量的任何值,误差都具有相同的方差 $$ Var(u|x) = \sigma^2 $$ 因为$Var(u|x) = E(u^2|x)-[E(u|x)]^2$且$E(u|x)=0$,这意味着$\sigma^2$也是$u^2$的无条件方差。
如果用y的条件均值和条件方差表示假定SLR.4和SLR.5:
$$
E(y|x) = \beta_0 + \beta_1x\
Var(y|x)=\sigma^2
$$
注意
当$Var(u|x)$取决于x时,便称误差项表现出异方差性,由于$Var(u|x)=Var(y|x)$,所以只要$Var(u|x)是x$的函数,便出现了异方差性
定理
OLS估计量的抽样方差
$$
\begin{aligned}
Var(\hat{\beta_1}) &= (\frac{1}{SST_x})^2Var(\sum_{i=1}^nd_iu_i)\
&= (\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2Var(u_i)\
&= \sigma^2(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\
&= \sigma^2(\frac{1}{SST_x})^2SST_x\
&= \frac{\sigma^2}{SST_x}\
Var(\hat{\beta_0}) &= Var(\bar{y}-\hat{\beta_1}\bar{x})\
&= Var(\beta_0+(\beta_1-\hat{\beta_1})\bar{x}+\bar{u})\
&= Var(\bar{u}) + \bar{x}^2Var(\beta_1-\hat{\beta_1})\
&= \frac{\sigma^2}{n} + \bar{x}^2\frac{\sigma^2}{SST_x}\
&= \frac{\frac{\sigma^2}{n}SST_x + \bar{x}^2\sigma^2}{SST_x}\
&= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n((x_i-\bar{x})^2 + \bar{x}^2)}{SST_x}\
&= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n(x_i^2-2x_i\bar{x} + 2\bar{x}^2)}{SST_x}\
&= \frac{\frac{\sigma^2}{n}\sum_{i=1}^nx_i^2}{SST_x}\
\end{aligned}
$$
误差方差的估计
前面OLS估计量的抽样方差都要求在已知$\sigma^2$的情况下才能能计算出来,而大多数的情况$\sigma^2$是未知的,我们可以用观测数据去估计$\sigma^2$从而去估计出$Var(\hat{\beta_0})和Var(\hat{\beta_1})$
残差与误差的区别
- 误差 $$ u_i = y_i - \beta_0 - \beta_1x_i $$
- 残差 $$ \hat{u_i} = y_i - \hat{\beta_0} - \hat{\beta_1}x_i=(\beta_0 + \beta_1+u_i) - \beta_0 - \beta_1x_i $$ 结合一下,有 $$ \hat{u_i} = u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i $$
虽然$E(\hat{\beta_0})=\beta_0,E(\hat{\beta_1})=\beta_1$但是对于任意一个样本$\hat{u_i}\neq u_i$,但是二者之差的期望确实为0.
回到$\sigma^2$的估计
因为$\sigma^2 = E(u^2)$,那么$\sigma^2$的一个无偏估计量就是 $$ \frac{\sum_{i=1}^nu_i}{n} $$ 但是,$u$其实是观测不到的误差,我们只能通过简单回归的估计值与观测值的差得到$u$的估计值$\hat{u_i}$,如果我们用$\hat{u_i}$来代替$u$,那么$\sigma^2$的一个无偏估计量就是 $$ \hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i}}{n-2} $$
之所以分母变成了$n-2$是因为残差在之前有两个一阶条件: $$ \sum_{i=1}^n\hat{u_i}=0\ \sum_{i=1}^nx_i\hat{u_i}=0 $$ 所以自由度就变成了n-2
定理
$\sigma^2$的无偏估计
$$
E(\hat{\sigma^2}) = \sigma^2
$$
推导:
$$
\begin{aligned}
(利用残差均值为0)\
对\hat{u_i} &= u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i\
两边取均值\
0 &= \bar{u_i} - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)\bar{x_i}\
上减下\
\hat{u_i} &= (u_i - \bar{u_i}) - (\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})\
两边平方\
\hat{u_i}^2 &= (u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})(u_i - \bar{u_i}) + (\hat{\beta_1}-\beta_1)^2(x_i - \bar{x_i})^2\
对所有i求和\
\sum_{i=1}^n\hat{u_i}^2 &= \sum_{i=1}^n(u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)\sum_{i=1}^n(x_i - \bar{x_i})u_i + (\hat{\beta_1}-\beta_1)^2\sum_{i=1}^n(x_i - \bar{x_i})^2\
两边求期望\
E(\sum_{i=1}^n\hat{u_i}^2) &= (n-1)\sigma^2-2\sigma^2 + \sigma^2 = (n-2)\sigma^2\
\therefore E(\frac{\sum_{i=1}^n\hat{u_i}^2}{n-2}) &= \sigma^2\
\end{aligned}
$$
当有了$\hat{\sigma^2}$就可以去估计$Var(\hat{\beta_1})与Var(\hat{\beta_0})$,值得一提的是,我们前面做的基本上都是点估计,在区间估计的时候,我们需要用$\hat{\sigma}$来估计标准差,因为 $$ sd(\hat{\beta_1}) = \frac{\sigma}{\sqrt{SST_x}} $$ 所以,$sd(\hat{\beta_1})$的一个估计量为: $$ se(\hat{\beta_1}) = \frac{\hat{\sigma}}{\sqrt{SST_x}} $$
这个被称为$\hat{\beta_1}$的标准误(standard error),与$\hat{\beta_1}$相似这个也是关于样本的一个随机变量;
注意
$\hat{\sigma}不是\sigma$的无偏估计量,但是是一个一致估计量,在大样本的情况下还是可以放心使用的
过原点回归与对常数回归
在某些研究中,我们希望施加这样的约束,就是当$x=0时,E(y)=0$,所以我们会构建这样一个模型 $$ \tilde{y} = \tilde{\beta_1}x $$
需要注意的就是在计算$R^2$的时候可能会出现负数的情况 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2} $$ 一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当$x=0时,E(y)=0$这个假设严重不符合实际。
如果坚持要使用这个模型的话,$R^2$应该改为 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2} $$
而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是$\bar{y}$了,如果套用$R^2$的公式,那么得到的始终是0;
需要注意的就是在计算$R^2$的时候可能会出现负数的情况 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2} $$ 一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当$x=0时,E(y)=0$这个假设严重不符合实际。
如果坚持要使用这个模型的话,$R^2$应该改为 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2} $$
而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是$\bar{y}$了,如果套用$R^2$的公式,那么得到的始终是0;