虚拟变量--潘登同学的计量经济学笔记
对定性信息的描述
定性信息通常以二值形式出现,我们可以通过定义一个二值变量(0-1变量)来刻画,在计量经济学中二值变量通常被称为虚拟变量
只有一个虚拟变量的情形
考虑一个决定小时工资的简单模型
$$ wage = \beta_0 + \beta_1 female + \beta_2 educ + u $$
其中$female$就是一个虚拟变量,女性则为1,男性则为0
虚拟变量系数的解释
对于上式来说,参数$\beta_1$的含义是:在教育程度与误差项相同的情况下,男性与女性在小时工资上的差异;
如果$\beta_1<0$,那么意味着在其他条件相同的情况下,女性工资要低于男性(就有可能存在性别歧视)
虚拟变量的作用效果
可以对男性和女性的模型分开来写
- 女性 $$ wage = \beta_0 + \beta_1 + \beta_2 educ + u $$
- 男性 $$ wage = \beta_0 + \beta_2 educ + u $$ 可以发现,虚拟变量的系数变成了截距项,如果将两个模型分别画在图上,就会发现这是两条互相平行的线,只是截距有所不同
检验工资性别歧视
方法很简单,还是跟之前那样
- 先用OLS来估计模型
- 使用t统计量来检验系数的显著性水平
因变量为对数形式的情况
观察如下回归结果
$$ \hat{\log(wage)} = 0.417 - 0.297 female+ 0.080 educ + 0.029 exper -0.00058 exper^2 + 0.032 tenure - 0.00059 tenure^2 $$
female的系数表示: 在educ、exper、tenure的相同水平上,女性比男性约少挣29.7%
如果我们想得到更精确的估计,计算女性与男性工资差异的比例 $$ different = \frac{\hat{wage_F}-\hat{wage_M}}{\hat{wage_M}} = exp{\log \frac{\hat{wage_F}}{\hat{wage_M}}} - 1 = exp{-0.297}-1 \approx -0.257 $$
更准确的估计意味着,一个女性的工资比一个与她相当的男性的工资低大约25.7%
多个虚拟变量的情形
虚拟变量有4个: 已婚男性、已婚女性、单身男性、单身女性,选择以单身男性为基组,回归结果如下
$$ \hat{\log(wage)} = 0.321 + 0.213 marrmale - 0.198 marrfem - 0.110 singfem + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2 $$
虚拟变量系数的解释
我们选择了单身男性作为基组,三个虚拟变量系数的估计值表示: 与单身男性相比,小时工资的差异
举例说明
在保持受教育程度、工作经历和现职任期不变的情况下,已婚男性比单身男性多挣21.3%
除了比较其他各组与基组的差异,也可以比较任意两组的差异,在保持受教育程度、工作经历和现职任期不变的情况下,单身女性比已婚女性多挣8.8%(0.198-0.110=0.088)
注意
我们只将4个变量中的3个加入模型,如果我们再加入一个单身男性的虚拟变量,将会导致完全共线性,即
$$
marrmale + marrfem + singfem + singmale = 1
$$
使用虚拟变量包含序数信息
我们想估计城市信用等级对地方政府债券利率MBR的影响,假设等级的范围是${0,1,2,3,4}$,0为最低信用等级,4为最高信用等级。我们不能将这五个值放到一个值中,我们能知道4级比3级好,但4级比3级好的程度是否与3级比2级好的程度一样就不一定,所以可以包括4个虚拟变量
$$ MBR = \beta_0 + \beta_1 CR_1 + \beta_2 CR_2 + \beta_3 CR_3 + \beta_4 CR_4 + \beta_5 CR_5 + 其他因素 $$
虚拟变量的交互作用
如果采用交互项的形式,也能刻画前面那个婚姻、性别的模型,模型的回归结果如下
$$ \hat{\log(wage)} = 0.321 - 0.110 female + 0.213 married - 0.301 female*married + 0.079 educ + 0.027 exper - 0.00054 exper^2 + 0.029 tenure - 0.00053 tenure^2 $$
上式也包含了性别、婚姻各种组合之间工资差异的一种不同方法。实际上,他并没有什么优势;前面的那个还能很好的反映任何一组与单身男性组(基组)之间的差异
虚拟变量与其他变量交互
观察一下模型
$$ \log(wage) = (\beta_0+\beta_1 female) + (\beta_2 + \beta_3 female)educ + u $$
一旦虚拟变量与其他变量交互了,之前说的相互平行、截距不同的结论就不适用了,因为educ前的系数是$(\beta_2 + \beta_3 female)$当$female$取0或1时,对系数会产生不同的结果
检验不同组之间回归函数上的差别
原假设$H_0:$两个总体或两个组具有同一个回归函数
备择假设$H_1:$各组之间有一个或多个斜率是不同的
举例说明 $$ cumgpa = \beta_0 + \beta_1sat + \beta_2hsperc + \beta_3tothrs+u $$
如果我们想检验男女之间是否存在差异: 就必须允许该模型的截距和斜率对两组而言都不相同 $$ cumgpa = \beta_0 + \delta_0 female + \beta_1 sat + \delta_1 female * sat + \beta_2 hsperc + \delta_2 female * hsperc + \beta_3 tothrs + \delta_3 female * tothrs +u $$
原假设$H_0:\delta_0=0,\delta_1=0,\delta_2=0,\delta_3=0$
注意,原假设是一个联合假设,需要去掉所有female及其交互项,得到约束模型,计算F统计量,最终得出结果(拒绝原假设)
邹至庄检验
对上面一个问题的检验可以使用邹至庄检验,邹至庄检验是用来可以测试两组不同数据的线性回归系数是否相等,对于上面问题来说就是男女数据,假设组1不包含虚拟变量及交互项,组2包括,记为$g=1,g=2$,将模型写成 $$ y = \beta_{g,0} + \beta_{g,1} x_1 + \beta_{g,2} x_2 + \cdots + \beta_{g,k} x_k + u $$
- 两组间每个$\beta$都相同,产生k+1个约束
- 组2还包括虚拟变量及截距项,自由度为n-2(k+1)(其中一个k+1是上句话,其中一个k+1是(各个虚拟变量及交互项前)参数个数)
计算步骤
- 计算$SSR_1$:表示第一组的残差平方和($n_1$个观测)
- 计算$SSR_2$:表示第二组的残差平方和($n_2$个观测)
- 计算无约束模型的残差平方和$SSR_{ur} = SSR_1 + SSR_2$
- 将两组数据混在一起,计算约束模型的残差平方和$SSR_p$
- 计算F统计量: $$ F = \frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k+1} $$
其中,n为总观测次数,这个特定的F统计量,被称为邹至庄统计量(注意
因为邹至庄检验本质是F检验,所以只有在同方差下才是有效的,特别是在原假设下,两组的误差方差必须相等)
稍作改进
邹至庄检验的原假设是各组间不存在任何差异,如果允许组间的截距不同,然后再来检验斜率的话,只需要将k+1改为k即可 $$ F = \frac{SSR_p-SSR_{ur}}{SSR_{ur}} \cdot \frac{n-2(k+1)}{k} $$
二值因变量
$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k $$
与多元回归模型类似,只不过y是一个二值变量,要么是0,要么是1;
如果我们假定MLR.4成立,即$E(u|x_1,\ldots,x_k) = 0$,那么 $$ E(y|x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k $$
值得注意的是,当y是一个取值为0和1的二值变量时,$E(y|x)=P(y=1|x)$ 表示y=1的概率,也被称为响应概率,因此二值因变量的多元线性回归模型也被称为线性概率模型(LPM)
系数解释
用概率来解释系数: 当其他条件不变是,x变化一个单位使得响应概率变化$\beta$
$$
\triangle P(y=1|x) = \beta_j \triangle x_j
$$
几点注意
由于二值的特性,所以LPM违背了一个高斯-马尔科夫假定MLR.5($var(u|x)=\sigma^2$),当y是一个二值变量时,其以x为条件的方差为 $$ Var(y|x)=p(x)[1-p(x)]\ p(x) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_k x_k \ $$
这意味着,除非概率与任何一个自变量都不相关,否则LPM就会存在异方差性。但我们知道MLR.5的违背不影响无偏性...