单因素方差分析(One-Way ANOVA)——MedCalc软件实现

发布于 2022年9月29日 星期四 16:37:54 浏览:3202
原创不易,转载请注明来源,感谢!
附件下载:
单因素方差分析.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了单因素方差分析(One-Way ANOVA)的假设检验理论 ,本文将使用实例演示在MedCalc软件中实现单因素方差分析的操作步骤。

关键词:MedCalc; 单因素方差分析; F检验; 事后检验; 两两比较

一、案例介绍

为了比较3个工种对工人血红蛋白含量的影响,从每个工种中随机抽取新入职的26名研究对象,测量每名研究对象在1年内血红蛋白含量下降的克数。问不同工种工人血红蛋白含量是否有差别?部分数据见图1。本案例数据可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是比较不同工种工人血红蛋白含量的变化量是否有差别,针对这种情况可以使用单因素方差分析。但需要满足6个条件:

条件1:观察变量为连续变量。本研究中的血红蛋白下降量为连续变量,该条件满足。

条件2:观测值相互独立。本研究中各研究对象的观测值都是独立的,不存在互相干扰的情况,该条件满足。

条件3:观测值可分为多组(≥2)。本研究中分为A、B、C3组,该条件满足。

条件4:观察变量不存在显著的异常值。该条件需要通过软件分析后判断。

条件5:各组观测值为正态(或近似正态)分布。该条件需要通过软件分析后判断。

条件6:多组观测值的整体方差相等。该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件4判断(异常值判断)

(1) 软件操作
  • 点击“统计”—“异常值检测”(图2)
图2
  • 在“异常值检测”主对话框中设置如下参数(图3),并点击确定

①变量:即包含分析资料的变量。本例选“Hb”。

②筛选条件:即设定统计分析的个案子组。本例依次填“group=1”/“group=2”/“group=3”。

③异常值检测方法:“Grubbs-左侧”表示进行只检查最小值的Grubbs检验;“Grubbs-右侧”表示进行只检查最大值的Grubbs检验;“Grubbs-两侧”表示进行检查两侧极端值的Grubbs检验;“生成的ESD检验”即广义ESD检验,可一次检测多个异常值,可设置最多可检测的异常值数,默认为10;“Turkey”即Turkey检验,可检出两侧的多个异常值。本例都选后3种检测方法。

④选项:“Alpha级”表示进行Grubbs检验和ESD检验时的检验水准,本例选“0.05”;“对数变换”表示当资料不服从正态分布时可对变量进行对数变换后再分析,本例不勾选;“检验正态分布”选择进行正态分布检验的方法,本例选“Shapiro-Wilk检验”。

图3
(2) 结果解读
图4-1
图4-2
图4-3

根据图4-1至图4-3的结果,所有研究对象的血红蛋白的变化量在0.1~3.7 g,依据专业知识判断均有可能存在。综上,本案例未发现需要删除的异常值,满足条件4。

2. 条件5判断(正态性检验)

单因素方差分析需要分别检验每组原始数据的正态性情况,或者检测整体残差的正态分布情况,此处先介绍分组检测每组原始数据的正态分布情况,整体残差的正态分布情况见单因素方差分析过程。

(1) 软件操作
  • 点击“统计”—“分布图”—“正态图”(图5)
图5
  • 在“正态图”主对话框中设置如下参数(图6),并点击确定

①变量:即包含分析资料的变量。本例选“Hb”。

②筛选条件:即设定统计分析的个案子组,本例依次填“group=1”/“group=2”/“group=3”。

③选项:勾选“Q-Q图”,可以绘制Q-Q图粗略评价资料是否服从正态分布,本例勾选。“检验正态分布”方法包括“Shapiro-Wilk检验”,常用于3≤n≤50的小样本资料;“Shapiro-Francia检验”,常用于5≤n≤5000的资料;“D’Agostino-Pearson检验”,常用于50≤n≤1000的资料、“Kolmogorov-Smirnov检验”,常用于n>50的资料;“卡方检验”,适用于分箱资料,本例选“Shapiro-Wilk检验”。

图6
  • 点击“统计”—“汇总统计”(图7)
图7
  • 在“汇总统计”主对话框中设置如下参数(图8),并点击确定

①变量:即包含分析资料的变量。本例选“Hb”。

②筛选条件:即设定统计分析的个案子组。本例依次填“group=1”/“group=2”/“group=3”。

③选项:“对数变换”当资料为正偏态时可考虑进行对数变换,本例不勾选。“检验正态分布”,依然选择“Shapiro-Wilk检验”。

图8
(2) 结果解读
图9-1
图9-2
图9-3

图9-1至图9-3显示3组散点基本围绕对角线分布,提示3组数据呈正态分布。

图10-1
图10-2
图10-3

图10-1至图10-3的正态性检验结果分别显示3组正态性检验的均P>0.05,也提示3组数据满足正态分布。综上,本案例满足条件5。关于正态性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现)。

3. 条件6判断(方差齐性检验)

(1) 软件操作
  • 点击“统计”—“方差分析”—“方差单向分析”(图11)
图11
  • 在“方差单向分析”主对话框中设置如下参数(图12),并点击确定

①数据:即因变量。本例选“Hb”。

②因子代码:即为定性因素变量。本例选“group”。

③筛选条件:即设定统计分析的个案子组。本例未选择任何变量。

④选项:“对数变换”本例不勾选。“事后检验”即当方差分析结果有统计学意义时,将进行各组均值间的两两比较,“Student-Newman-Keuls检验”应用最广泛,各比较组样本量可同可不同;“Turkey-Kramer检验”要求各比较组样本量相同;“Scheffé检验”常用于各比较组样本量不同的资料。本例选“Tukey-Kramer检验”。“显著性水平”即事后检验的期望显著性水平,若检验结果的P值小于该水平,则使用Scheffé法进行事后检验,本例选“0.05”。

⑤残差-检验正态分布:本例选“Shapiro-Wilk检验”。

图12
(2) 结果解读
图13

图13为方差齐性检验结果,可见P=0.167>0.1,提示3组数据方差齐,满足条件6。

(二) 统计描述及推断

1. 软件操作

软件操作同“条件6判断”

2. 结果解读

(1) 条件5补充判断(正态性检验)

图14为整体残差的Shapiro-Wilk检验结果,可知W=0.9735,P=0.1031,提示整体残差满足正态性。和分组检测各组原始数据的正态性结果一致。

图14
(2) 统计描述

由图10-1至图10-3可知,A、B、C3组血红蛋白的下降克数分别为1.69±0.87、1.25±0.74、1.09±0.59 g。3组数值差异是否有统计学意义需要依据统计学检验的结果进行判断。

(3) 统计推断
图15

图15显示了单因素方差分析(Fisher’s)的结果。本案例满足条件1-6,F比率=4.509,P=0.014,提示各组均数不全相等(至少有两组均数不相同),但具体是哪些组别之间存在差异尚不清楚,因此需要进行事后检验,开展两两比较。

() 事后检验(两两比较)

图16

图16使用Tukey-Kramer法进一步两两比较后结果显示,3组工人血红蛋白下降克数的平均秩分别为1.6885、1.2500和1.0923。第1组和第2组之间差异无统计学意义(P>0.05);第1组和第3组之间差异有统计学意义(P<0.05);第2组和第3组之间差异无统计学意义(P>0.05)。

点击图14右下角的“多重对比图表”,出现图17页面,点击“确定”后可出现3组的多重对比图(图18)。

图17
图18

四、结论

本研究采用单因素方差分析判断3个工种对工人血红蛋白的影响是否存在差异。通过专业知识判断,3组数据不存在需要删除的异常值;通过绘制Q-Q图和进行Shapiro-Wilk检验,提示3组数据满足正态分布;通过Levene检验,提示3组数据间方差齐,采用单因素方差分析法分析数据。

分析结果显示,A、B、C3组血红蛋白的下降克数分别为1.69±0.87、1.25±0.74、1.09±0.59 g,3组均数不全相等(F=4.509,P=0.014)。进一步采用Tukey-Kramer检验进行两两比较可知,A工种血红蛋白的平均下降克数比C工种多0.596 g,差异有统计学意义(P>0.05);A工种血红蛋白的下降克数比B工种多0.438 g,但差异无统计学意义(P>0.05);B工种血红蛋白的下降克数比C工种多0.158 g,但差异无统计学意义(P>0.05)。因此,不同工种对工人血红蛋白下降量的影响不一样,A工种影响最大。

五、分析小技巧

(一) 正态性检验

  • 在进行单因素方差分析时,可分别检验每组原始数据的正态性情况,或者检测整体残差的正态分布情况。但方差分析对数据的分布具有一定的耐受力,如果数据不是严重偏态或者只有部分组别数据不满足正态性要求,鉴于参数检验的统计学效能优于非参数检验的角度,还是可以使用单因素方差分析方法,而不使用非参数检验。

(二) 方差齐性检验

  • 对于不是特别严重的方差不齐,有些软件(如SPSS)在单因素方差分析时提供了校正检验方法(Welch’s),是考虑了方差差异之后的更为稳健的分析结果。但当组间方差差异较大时,校正结果也不一定可信,建议使用非参数检验(Kruskal-Wallis H检验)。如果数据正态性和方差齐性都不满足,最好使用非参数检验(Kruskal-Wallis H检验)。关于方差齐性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(4/4)——方差齐性检验及SPSS实现)。

(三) 事后检验(两两比较)

  • 多重比较一般分为事前检验(Prior tests)和事后检验(Post hoc tests)。事前检验是指在数据收集之前便决定了要通过多重比较来考察多个组与某个特定组之间的差别,多根据专业意义设定比较的策略。如果是事前检验,不论整体分析的结果如何,均可进行比较,并且一般不需要对检验水准进行太多修正。事后检验只有在方差分析得到有统计学意义的F值后才有必要进行,是一种探索性分析。对于事先未计划的多重比较(即事后检验),各组间的差别只是一种提示,要确认这种差别最好重新设计实验。
  • 在MedCalc软件中提供了SNK、Tukey-Kramer、Scheffé法3种两两比较方法。当各组例数相等时,首选Tukey-Kramer法,当各组例数不相等时,首选Scheffé法。SNK法利用同质亚组的思想,在比较过程中,将各组均值按从高到低排列,首先检验极端的差分值。
End
文章目录 沉浸式阅读