各种假设检验总结 -- 潘登同学的数理统计笔记
假设检验的步骤
- 原假设("="放在原假设)
- 确定检验统计量
- 确定显著性水平(α)
- 确定拒绝域
- 计算检验统计量
- 做出统计判断
Z检验
均值差检验
是一般用于大样本 (即 样本容量 大于30)平均值差异性检验的方法。
H0: 总体均值为μ0, 即μ=μ0
Z=nσ0Xˉ−μ0
其中, σ0为已知标准差
总体比率的检验
一般用Π表示总体比率,用p表示样本比率,关于总体比率的假设检验就是依据p的抽样分布对Π是否等于某个值所做的判断
单一总体比率的检验
H0: 总体比率为Π0, 即Π=Π0
- Z检验统计量(当样本容量足够大,即nΠ和n(1−Π)都大于等于5时,样本比率p的抽样分布近似服从均值为Π,标准差为nΠ0(1−Π0)的正态分布)
Z=nΠ0(1−Π0)p−Π0
两总体比率的检验
H0: 总体比率差为D0, 即Π1−Π2=D0
- Z检验统计量(与上面其实差不多,就涉及了正态分布加减仍是正态分布)
Z=σp1−p2(p1−p2)−D0
其中, σp1−p2=n1Π1(1−Π1)+n2Π2(1−Π2)
t检验
主要是比较均值
单总体检验
单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
H0: 总体均值为μ0, 即μ=μ0
- t检验统计量
t=nsXˉ−μ0
其中, Xˉ=n∑i=1nxi,s=n∑i=1n(xi−xˉ)2
然而当样本容量大于30, t分布渐近标准正态, 也可以采用Z检验统计量;
双总体检验
双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。
独立样本t检验
各实验处理组之间毫无相关存在,即为独立样本
H0: 两个总体均值相等, 即μ1=μ2
1. 独立大样本,总体标准差已知
- 独立样本Z检验统计量
Z=n1σ12+n2σ22X1ˉ−X2ˉ
σ12、σ22为两总体方差, n1,n2为两样本容量
2. 独立大样本,总体标准差未知
- 独立样本Z检验统计量
Z=n1S12+n2S22X1ˉ−X2ˉ
S12、S22为两样本方差, n1,n2为两样本容量
3. 独立小样本,总体标准差未知
- 独立样本t检验统计量
t=n1+n2−2(n1−1)S12+(n2−1)S22(n11+n21)X1ˉ−X2ˉ
S12、S22为两样本方差, n1,n2为两样本容量
配对样本t检验
是对用于检验配对设计实验中成对定量数据是否存在差异性的统计方法
-
配对设计实验
- 同一对象处理前后的数据,例如判断使用新的教学模式前、后学生成绩是否存在差异性
- 同一对象两个部位的数据,例如判断静脉采血与末梢神经采血化验指标是否存在差异
- 同一样品两种方法检验的结果,例如判断传统化验手段与新型化验手段是否存在差异
- 配对的两个对象分别接受进行两种处理后的数据,例如判断病人使用两种不同降压药对于血压的控制是否存在差异
-
原假设
H0: 两个总体均值之差为μ0, 即X1−X2=μ0
- 配对样本t检验统计量
t=nSddˉ−μ0
其中, di=x1i−x2i;dˉ=n∑i=1ndi;Sd=n−1∑i=1n(di−dˉ)2
相关系数检验
H0:ρ=0
- 检验统计量
t=n−21−r2r−1,df=n−2
其中,n为样本量, r为样本的相关系数r=σ(x)σ(y)cov(x,y)
F检验
方差齐性检验
方差齐性是方差分析和一些均数比较、t检验的重要前提,利用F检验进行方差齐性检验是最原始的,但对数据要求比较高。
样本来自两个独立的、服从正态分布的总体。
X1∼N(μ1,σ12),X2∼N(μ2,σ22)
H0: 两个总体方差相等, 即σ12=σ22
- 检验统计量
F=S22S12
其中, S1=n1−11∑i=1n(X1i−X1ˉ)
原理详解
F分布的定义: 两个卡方/n
之比 -- F分布
σ22S22σ12S12∼F(n1−1,n2−1)
当σ1=σ2时, 那么S22S12∼F(n1−1,n2−1)
单因素方差分析
假设我们要研究一个因素对于一个指标的影响,试图比较这个因素内各个取值水平对于这个指标的影响是否相同。
每一水平的总体服从正态分布且各总体方差相等(所以要求先做方差齐性检验)
H0: 各个总体均值相等, 即μ1=μ2=⋯=μn
- 检验统计量
F=df2SSEdf1SSA∼F(df1,df2)
其中,SSA是组间平方和, SSE是组内平方和, (假设总共有m个样本,分为n个组(不一定均匀))
SSA=i=1∑nmi(yi⋅ˉ−yˉ)2SSE=i=1∑nj=1∑mi(yij−yi⋅ˉ)2
而df1=n−1,df2=m−n 因为SSE有n个已知参数就是每组的均值, 所以自由度是m−n, SSA里面只有一个已知参数就是样本的均值yˉ, 所以自由度就是n−1
原理详解
F分布的定义: 两个卡方/n
之比 核心关键是σ2SSA、σ2SSE就是卡方, 而前面假设方差相等
(m−n)σ2SSE(n−1)σ2SSA=(m−n)SSE(n−1)SSA∼F(n−1,m−n)
线性回归方程整体的显著性检验
线性回归方程的总变差也可以像方差分析一样分解:
总离差平方和=回归平方和+残差平方和SST=SSR+SSESST=i=1∑m(yi−yˉ)2SSR=i=1∑m(yi^−yˉ)2SSE=i=1∑mui^=i=1∑m(yi−yi^)2
H0: 线性模型中的一组自变量(q个)对因变量没有影响 即β1=β2=⋯=βq
- 检验统计量
F=m−n−1SSRurqSSRr−SSRur∼F(q,m−n−1)
其中, SSRr为排除了原假设中的自变量构造的一个新的线性模型的SSR,
SSRur是原线性模型的SSR, n是自变量个数
特别地, 如果q=n
F=m−n−1SSEnSSR∼F(n,m−n−1)
卡方检验(参数检验)
H0: 方差为σ0, 即σ=σ0
- 检验统计量
χ2=σ2(n−1)s2∼χ2(n−1)
其中, s2为样本方差
卡方检验(非参数检验)
拟合度的卡方检验
统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
H0: 总体服从某种分布, 理论值为fe
χ2=i=1∑nfe(fi−fe)2
其中, n表示分类变量的个数, 卡方分布的自由度为n−1
卡方独立性检验
用于两个或两个以上因素多项分类的计数资料分析,即研究两类变量之间(以列联表形式呈现)的关联性和依存性,或相关性、独立性、交互作用性。
H0: X与Y没有关系, 相互独立
假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为
|
y1 |
y2 |
总计 |
x1 |
a |
b |
a+b |
x2 |
c |
d |
c+d |
总计 |
a+c |
c+d |
a+b+c+d |
χ2=(a+b)(c+d)(a+c)(b+d)n(ad−bc)2自由度df=(行数−1)(列数−1)=1
K-S检验(非参数检验)
单样本K-S
主要是用来检验一组样本是否来自于某个概率分布
H0: 样本来自于P(分布)
D=max{∣S(xi)−F(xi)∣}修正后,D=max{∣S(xi−1)−F(xi)∣}
其中, S(xi)为实际的累计概率, F(xi)为理论的累计概率, max表示差值样本中的最大绝对差值
在大样本下, 原假设成立时, nD服从Kolmogorov-Smirnov分布
, 分布函数为
K(x)=j=−∞∑∞(−1)je−2j2x2
两独立样本K-S检验
首先, 将两个样本混合并且按照升序排序; 然后分别计算两样本秩的累计概率;最后根据两组累计概率差的绝对值, 得到累计概率绝对差的序列并得到D统计量
H0: 两组样本的总体的分布一样
D=max{∣S1(xi)−S2(xi)∣}
其中, S1(xi)是一组样本秩的累计概率
游程检验
游程检验亦称“连贯检验”,是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。
00110111000100100010
第一组的游程是5,第二组的游程是2,第三组的游程是11。
首先看零在这个序列中出现几次,假如有一个零,也算一次,一百个零连在一起也算一次,这个一次称作一个游程。查一查零共出现六次,所以有六个零的游程。其他以此类推。
随机变量游程检验
如果序列为真随机序列,那么游程的总数应该不太多也不太少。如果游程的总数极少,就说明样本缺乏独立性,内部存在一定的趋势或者结构,这可能由于观察值间不独立,或者来自不同的总体。如果样本间存在大量游程,则可能有系统的短周期波动影响观察结果。同样认为序列非随机。
H0: 变量值出现是随机的
Z=σrr−μr
其中, r为游程数, μr=n1+n22n1n2;σr2=(n1+n2)2(n1+n2−1)2n1n2(2n1n2−n1−n2)
两独立样本W-W游程检验
H0: 两组样本的总体的分布一样
首先, 将两样本混和并按升序排序。在变量值排序的同时, 对应的组标记值也会随之重新排列。 然后, 对组标记值序列按照前面讨论的计算游程的方式计算游程数, 如果两总体的分布存在较大差异, 那么基于组标记的游程数会相对比较少; 如果胡太医组标记的游程数比较大, 则应是两组样本值充分混合的结果, 两总体的分布不会存在显著差异.
Z=σrr−μr
两独立样本的曼-惠特尼U检验
H0: 两组样本的总体的分布一样(总体均值相等)
首先, 将两样本混和并按升序排序。分别对两个样本的秩求平均, 得到两个平均秩mWx,nWy, Wx,Wy是秩和统计量。 然后计算U统计量
- U统计量
U=W−21k(k+1)
其中, W为WilcoxonW
= min(Wx,Wy), k为W对应秩和所在组的样本量
在小样本下, U统计量服从曼-惠特尼分布, 大样本下, U统计量近似服从正态分布
Z=21mn(m+n+)U−21mn
注意
这个检验不像前面的一样的, 是统计量大于临界值才拒绝原假设, 而是统计量小于临界值就能拒绝原假设;
容易理解, 如果两个样本的均值差距较大, 那么他们的秩和差距也会大, 那么小的那个秩和统计量就会很小, 从而U统计量会很小, 从而更容易拒绝原假设;