BLOG

个人博客,记录学习与生活

方差分析

Published Nov. 27, 2019, 3:40 p.m. by kkk

目的

检验不同样本是否具有相同的均值(在基本假定条件下,即检验样本是否来自同一个正态总体

方式:通过对各观察数据误差来源进行分析,来判断多个总体均值是否相等

基本思想和原理

两类误差:随机误差系统误差

两类方差:组内方差组间方差

通过比较两类误差,来检验均值是否相等(利用方差比)

组内方差是只含随机误差的(通常是抽样的随机性引起),而组间方差即包括随机误差也包括系统误差(系统误差由不同组自身差异导致),这时组间方差除以组内方差结果就会大于一。将两者相除,如果样本均值相同,那么结果应该为1。当该比值大到某种程度时,就说不同样本间存在显著差异。

基本假定

  • 每个总体都应该服从正态分布
  • 每个总体的方差必须相同
  • 观察值独立

假设

零假设:各样本具有相同均值;$H_0:\mu_1=\mu2=...=\mu_k$

备择假设:各样本均值不全相同;$H_1:\mu_1,\mu_2,...\mu_k$不全相等

统计量构造

组内均值 $\overline{X_i}=\frac{\sum_{j=1}^{n_i}x_{ij}}{n_i},(i=1,2,...,k)$

总体均值 $\overline{X }=\frac{\sum_{i=1}^{k}\sum_{j=1}^{n_i}x_{ij}}{n}=\frac{\sum^k_{i=1}n_i \overline{x_i}}{n}, n=n_1+n_2+...+n_k$

总离差平方和 $SST$

组内离差平方和 $SSE$

水平项平凡和(组间平方和) $SSA$

三平方和间有着如右式的关系:$SST = SSE + SSA$

注:

  • $SST$反映了全部数据总的误差程度;$SSE$反映了随机误差的大小;$SSA$反应了随机误差和系统误差的大小。
  • 若原假设成立,则表明没有系统误差,那么$SSA$除以自由度之后的均方与$SSE$除以自由度之后的差异就不会太大
  • $SST$ ,$SSA$, $SSE$三者的自由度分被是$n-1$,$k-1$,$n-k$

计算均方(方差)$MS$

$MSA$: $SSA$的均方,组间方差

$$MSA=\frac{SSA}{k-1}$$

$MSE$: $SSE$的均方,组内方差

$$MSE=\frac{SSE}{n-k}$$

比较组间方差和组内方差,构造$F$

$$F=\frac{MSA}{MSE}~F(k-1,n-k)$$

统计决策

给定显著性水平$\alpha$,通过查$F$分布表得到与第一自由度和第二自由度相对应的临界值$F_\alpha$,然后比较通过样本计算而得的$F$值和临界值$F_\alpha$,若$F>F_\alpha$,则拒绝原假设$H_0$,否则接收该假设。

方差分析中的多重比较

多重比较:通过对总体均值之间的配对比较来进一步检验到底那些均值之间存在差异

最小显著差异方法(由Fisher提出),简称LSD,(模式识别PPT里运用过)

示范:(基于统计量$\overline{x_i}-\overline{x_j}$的$LSD$方法)

  1. 通过判断样本均值之差的大小来检验$H_0$
  2. 检验的统计量为$\overline{x_i}-\overline{x_j}$
  3. 检验步骤:
  4. 提出假设($H_0$为第$i$个总体均值等于第$j$个总体均值、$H_1$)
  5. 计算$LSD$ ($LSD=t_{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}$)
  6. 若$|\overline{x_i}-\overline{x_j}|\geq LSD$,拒绝原假设$H_0$,否则不能拒绝原假设

Share this post
< Pre: git学习笔记 Pos: 数据预处理 >
No comments
Similar posts
Add a new comment