简单回归模型--潘登同学的计量经济学笔记

简单回归模型--潘登同学的计量经济学笔记

由两条基本假设推导最小二乘法
- 矩估计求得$\beta_0$与$\beta_1$
- 为什么叫普通最小二乘法
OLS统计量的代数性质
- SST、SSE、SSR
- 拟合优度
在简单回归中加入非线性因素
- 常弹性模型
OLS估计的统计性质
过原点回归与对常数回归

方程及名称

简单形式： $$ y = \beta_0 + \beta_1 x + u $$
基本术语：

y	x	u	$\beta_0$	$\beta_1$
因变量	自变量	误差项	截距参数	斜率参数
被解释变量	解释变量	干扰项
相应变量	控制变量
被预测变量	预测变量
回归子	回归元

由两条基本假设推导最小二乘法

假设1：$E(u) = 0$

因为简单回归中的u表示的是随机干扰项，如果均值不为0，那起到的就不是一个随机干扰的作用，假若$E(u)\neq0$，也可以通过截距项$\beta_0$来将$E(u)$变为0
假设2：$E(u|x)=E(u)$

假设2其实想表达随机干扰项与解释变量x无关，因为是随机嘛，所以无关

将假设1、2合并，便得到零条件均值假定： $$ E(u|x) = 0 $$

现在改写方程 $$ E(y|x) = \beta_0 + \beta_1 x $$

矩估计求得$\beta_0$与$\beta_1$

由$E(u)=0$，有 $$ E[y-(\beta_0 + \beta_1 x)] = 0\ 即 \frac{\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1} x)}{n}=0\ \bar{y}-\hat{\beta_0}-\hat{\beta_1}\bar{x}=0\ \hat{\beta_0} = \bar{y}-\hat{\beta_1}\bar{x}......（1） $$ 由$E(ux)=0$，有 $$ E(x(y-(\beta_0 + \beta_1 x))) = 0\ 即 \frac{\sum_{i=1}^nx_i(y_i-\hat{\beta_0-\beta_1 x})}{n}=0\ 将上面\hat{\beta_0}的结果代入， \sum_{i=1}^nx_i(y_i-\bar{y})=\hat{\beta_1}\sum_{i=1}^nx_i(x_i-\bar{x})\ 根据\sum_{i=1}^nx_i(y_i-\bar{y}) = \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})和\sum_{i=1}^nx_i(x_i-\bar{x}) = \sum_{i=1}^n(x_i-\bar{x})^2\ 则改写为\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = \hat{\beta_1}\sum_{i=1}^n(x_i-\bar{x})^2\ 只要\sum_{i=1}^n(x_i-\bar{x})^2 \neq 0\ \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{COV(x,y)}{D(x)} = \hat{\rho_{xy}}(\frac{\hat{\sigma_x}}{\hat{\sigma_y}}) ......（2） $$

其中，$\hat{\rho_{xy}}$是x与y的相关系数，$\hat{\sigma_x} \hat{\sigma_y}$表示样本方差

（1）与（2）给出的估计值叫做$\beta_0与\beta_1$的普通最小二乘法（ordinary least squares, OLS)估计值。

为什么叫普通最小二乘法

定义残差： $$ \hat{u_i} = y_i - \hat{y_i} = y_i - (\beta_0 + \beta_1 x) $$

注意 残差与误差不是同一个东西，可以理解为一个是事前模型理想的值，而另一个则是事后估计与观察的差值

我们想要估计与观测尽可能的小，让残差平方和(SSR)最小即可 $$ \min_{\beta_0 , \beta_1}\sum_{i=1}^n \hat{u_i}^2 $$

问题：为什么是去优化残差平方和而不是绝对值或者4次方呢？

这个我们在多元线性回归MLR中，用极大似然估计推导过，可以看那个过程。

OLS统计量的代数性质

1.OLS残差和其样本均值都为0 $$ \sum_{i=1}^n \hat{u_i} = 0 $$
2.解释变量与OLS残差的样本协方差为零 $$ \sum_{i=1}^n x_i\hat{u_i} = 0 $$
3.点$(\bar{x},\bar{y})$总在OLS回归线上 $$ \bar{y} = \beta_0 + \beta_1 \bar{x} $$

SST、SSE、SSR

定义总平方和（Total sum of squares)、解释平方和（explained sum of squares)、残差平方和（residual sum of squares） $$ SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 $$

SST度量了$y_i$中总样本的波动；这就是说，他度量了$y_i$在样本中的分散程度，将其除以$n-1$，便得到y的样本方差。
SSE度量了$\hat{y_i}$的样本波动
SSR度量了$\hat{u_i}$的样本波动，$y$的样本波动总能表示成解释了的波动和为解释的波动之和 $$ SST = SSE + SSR $$

推导 $$ \begin{aligned} \sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n[(y_i-\hat{y_i})+(\hat{y_i}-\bar{y})]^2\ &= \sum_{i=1}^n[\hat{u_i}+(\hat{y_i}-\bar{y_i})]^2\ &= \sum_{i=1}^n\hat{u_i}^2 + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + \sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2\ &= SSR + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + SSE \end{aligned} $$

对于上式，只要$\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i})=0$就可以得证； $$ \begin{aligned} \sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) &= \sum_{i=1}^n\hat{u_i}\hat{y_i} - \hat{u_i}\bar{y_i} \ &= \sum_{i=1}^n\hat{u_i}\hat{y_i}\ &= \sum_{i=1}^n\hat{u_i}(\beta_0 + \beta_1 {x_i})\ &= \beta_1\sum_{i=1}^n\hat{u_i} {x_i}\ 由性质2，上式为0 \end{aligned} $$

拟合优度

当SST不为零时（只要y不全相等，SST就不为零） $$ R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} $$

$R^2$是可解释波动与总波动之比，$R^2$总是介于$[0,1]$越大拟合效果越好

$R^2$也可以用$y_i与\hat{y_i}$的样本相关系数的平方来计算，这也是$R^2$的由来

注意 在社会科学中，$R^2$过低是很正常的，特别是对于横截面分析来说，一个很低的$R^2$不代表OLS回归方程没有用，所以不需要过多的在意$R^2$的大小

在简单回归中加入非线性因素

我们想研究，解释变量$x$变化一个单位的时候被解释变量$y$变化的百分数，可以构建这样一个模型 $$ \log(y) = \beta_0 + \beta_1x + u $$

注意 $\log$表示的是自然对数，因为经济学家们都习惯用$\log$表示而不是$\ln$

问题：为什么$\log(y)$能表示变化的百分比

百分数变化： $x从x_0变到x_1$的百分比变化是： $$ \%△x = 100(\frac{x_1-x_0}{x_0}) = 100(\frac{△x}{x_0}) $$

核心不等式：在高中时期，我们学过这样一个不等式 $$ ln(x+1) \leq x （当且仅当x=0时，等式成立） $$

令$y_0与y_1$为两个正数，满足$y_1-y_0 \approx 0$,则有 $$ \log(y_1) - \log(y_0) = \log(\frac{y_1}{y_0}) = \log(1+\frac{△y}{y_0}) \approx \frac{△y}{y_0} $$

故我们只需要给$△log(y)$加个百分号就能反映变化的百分比了

常弹性模型

有了上面的知识，我们也可以去研究解释变量变化百分之一时，被解释变量变化百分之几，这就是常弹性模型 $$ \log(y) = \beta_0 + \beta_1\log(x) $$

弹性：y对x的弹性就是，当x变化百分之一时，y变化百分之几 $$ \beta = \frac{△\log(y)}{△\log(x)} $$ 这个$\beta$就能表示y对x的弹性啦

OLS估计的统计性质

OLS的无偏性

有4个假定，因为简单线性模型也可以写作SLR，后面就用SLR来表示

假定
- SLR.1 （线性于参数） $$ 总体模型\ y = \beta_0 + \beta_1x + u $$
- SLR.2 （随机抽样）

横截面数据的样本都是随机抽样的结果

SLR.3 （解释变量的样本有波动）

x是不完全相等的数值，因为一旦全都相等，那$\hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}$的分母就会为0

SLR.4 （零条件均值） $$ E(u|x) = 0 $$

前三个假定都是很自然而然的，假定4则是从开始一直沿用的。

定理 OLS估计量的无偏性 $$ \begin{aligned} \hat{\beta_1} &= \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2}\ &= \frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2}\ &= \frac{\beta_0\sum_{i=1}^n(x_i-\bar{x}) + \beta_1\sum_{i=1}^n(x_i-\bar{x})x_i + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\ &= \frac{\beta_1SST_x + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x} = \beta_1 + \frac{1}{SST_x}\sum_{i=1}^nd_iu_i \end{aligned} $$

其中，$d_i = x_i - \bar{x}$,则$\hat{\beta_1}$的估计量等于总体斜率加上误差${u_1,u_2,\ldots,u_n}$的一个线性组合，以$x_i$为条件，$\hat{\beta_1}$的随机性完全来自于样本中的误差，这些误差一般都不为零的事实，正是$\hat{\beta_1}与\beta_1$有差异的原因；

利用SLR.1-SLR.4，对$\beta_0与\beta_1$的任何值，我们都有 $$ E(\hat{\beta_0}) = \beta_0,E(\hat{\beta_1}) = \beta_1 $$

对于$\beta_1$ $$ \begin{aligned} E(\hat{\beta_1}) &= \beta_1+E(\frac{1}{SST_x}\sum_{i=1}^nd_iu_i)\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nE(d_iu_i)\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iE(u_i)\ &= \beta_1 \end{aligned} $$ 注意 在上面的推到过程中，期望值都以张自变量的样本值为条件。因为$SST_x和d_i$都只是$x_i$的函数，所以在它们在条件的作用下是非随机的。
对于$\beta_0$ $$ \begin{aligned} \hat{\beta_0} &= \bar{y}-\hat{\beta_1}\bar{x} \ &= \beta_0 + \beta_1\bar{x}+\bar{u}-\hat{\beta_1}\bar{x}\ E(\hat{\beta_0}) &= \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]\ &= \beta_0 \end{aligned} $$

OLS估计量的方差

在SLR.1-SLR.4的基础上再加入一个同方差假定

SLR.5 （同方差性）给定解释变量的任何值，误差都具有相同的方差 $$ Var(u|x) = \sigma^2 $$ 因为$Var(u|x) = E(u^2|x)-[E(u|x)]^2$且$E(u|x)=0$,这意味着$\sigma^2$也是$u^2$的无条件方差。

定理 OLS估计量的抽样方差 $$ \begin{aligned} Var(\hat{\beta_1}) &= (\frac{1}{SST_x})^2Var(\sum_{i=1}^nd_iu_i)\ &= (\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2Var(u_i)\ &= \sigma^2(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\ &= \sigma^2(\frac{1}{SST_x})^2SST_x\ &= \frac{\sigma^2}{SST_x}\ Var(\hat{\beta_0}) &= Var(\bar{y}-\hat{\beta_1}\bar{x})\ &= Var(\beta_0+(\beta_1-\hat{\beta_1})\bar{x}+\bar{u})\ &= Var(\bar{u}) + \bar{x}^2Var(\beta_1-\hat{\beta_1})\ &= \frac{\sigma^2}{n} + \bar{x}^2\frac{\sigma^2}{SST_x}\ &= \frac{\frac{\sigma^2}{n}SST_x + \bar{x}^2\sigma^2}{SST_x}\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n((x_i-\bar{x})^2 + \bar{x}^2)}{SST_x}\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n(x_i^2-2x_i\bar{x} + 2\bar{x}^2)}{SST_x}\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^nx_i^2}{SST_x}\ \end{aligned} $$

误差方差的估计

前面OLS估计量的抽样方差都要求在已知$\sigma^2$的情况下才能能计算出来，而大多数的情况$\sigma^2$是未知的，我们可以用观测数据去估计$\sigma^2$从而去估计出$Var(\hat{\beta_0})和Var(\hat{\beta_1})$

残差与误差的区别

误差 $$ u_i = y_i - \beta_0 - \beta_1x_i $$
残差 $$ \hat{u_i} = y_i - \hat{\beta_0} - \hat{\beta_1}x_i=(\beta_0 + \beta_1+u_i) - \beta_0 - \beta_1x_i $$ 结合一下，有 $$ \hat{u_i} = u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i $$

虽然$E(\hat{\beta_0})=\beta_0,E(\hat{\beta_1})=\beta_1$但是对于任意一个样本$\hat{u_i}\neq u_i$,但是二者之差的期望确实为0.

回到$\sigma^2$的估计

因为$\sigma^2 = E(u^2)$,那么$\sigma^2$的一个无偏估计量就是 $$ \frac{\sum_{i=1}^nu_i}{n} $$ 但是，$u$其实是观测不到的误差，我们只能通过简单回归的估计值与观测值的差得到$u$的估计值$\hat{u_i}$,如果我们用$\hat{u_i}$来代替$u$,那么$\sigma^2$的一个无偏估计量就是 $$ \hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i}}{n-2} $$

之所以分母变成了$n-2$是因为残差在之前有两个一阶条件: $$ \sum_{i=1}^n\hat{u_i}=0\ \sum_{i=1}^nx_i\hat{u_i}=0 $$ 所以自由度就变成了n-2

定理$\sigma^2$的无偏估计 $$ E(\hat{\sigma^2}) = \sigma^2 $$

推导： $$ \begin{aligned} (利用残差均值为0)\ 对\hat{u_i} &= u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i\ 两边取均值\ 0 &= \bar{u_i} - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)\bar{x_i}\ 上减下\ \hat{u_i} &= (u_i - \bar{u_i}) - (\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})\ 两边平方\ \hat{u_i}^2 &= (u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})(u_i - \bar{u_i}) + (\hat{\beta_1}-\beta_1)^2(x_i - \bar{x_i})^2\ 对所有i求和\ \sum_{i=1}^n\hat{u_i}^2 &= \sum_{i=1}^n(u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)\sum_{i=1}^n(x_i - \bar{x_i})u_i + (\hat{\beta_1}-\beta_1)^2\sum_{i=1}^n(x_i - \bar{x_i})^2\ 两边求期望\ E(\sum_{i=1}^n\hat{u_i}^2) &= (n-1)\sigma^2-2\sigma^2 + \sigma^2 = (n-2)\sigma^2\ \therefore E(\frac{\sum_{i=1}^n\hat{u_i}^2}{n-2}) &= \sigma^2\ \end{aligned} $$

当有了$\hat{\sigma^2}$就可以去估计$Var(\hat{\beta_1})与Var(\hat{\beta_0})$，值得一提的是，我们前面做的基本上都是点估计，在区间估计的时候，我们需要用$\hat{\sigma}$来估计标准差,因为 $$ sd(\hat{\beta_1}) = \frac{\sigma}{\sqrt{SST_x}} $$ 所以，$sd(\hat{\beta_1})$的一个估计量为： $$ se(\hat{\beta_1}) = \frac{\hat{\sigma}}{\sqrt{SST_x}} $$

这个被称为$\hat{\beta_1}$的标准误（standard error），与$\hat{\beta_1}$相似这个也是关于样本的一个随机变量；

注意 $\hat{\sigma}不是\sigma$的无偏估计量，但是是一个一致估计量，在大样本的情况下还是可以放心使用的

过原点回归与对常数回归

在某些研究中，我们希望施加这样的约束，就是当$x=0时，E(y)=0$,所以我们会构建这样一个模型 $$ \tilde{y} = \tilde{\beta_1}x $$

需要注意的就是在计算$R^2$的时候可能会出现负数的情况 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n（y_i-\bar{y})^2} $$ 一旦出现负数，就表明用这个模型做的回归还不如直接用均值来拟合的效果好，其实本质上反映的问题就是：当$x=0时，E(y)=0$这个假设严重不符合实际。

如果坚持要使用这个模型的话，$R^2$应该改为 $$ R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2} $$

而对常数回归就是上面提到的那个直接用均值拟合，预测值始终就是$\bar{y}$了，如果套用$R^2$的公式，那么得到的始终是0；