关键词:MedCalc; 非参数检验; 秩和检验; Kruskal-Wallis H检验; 多样本秩和检验; 事后检验
一、案例介绍
某医师对30例胆管癌患者的肿瘤直径进行了测定,其中9例<2cm,11例为2~3cm,10例>3cm。同时该医生对所有患者血清中糖类抗原19-9 (carbohydrate antigen 19-9,CA19-9)水平(μg/L)进行了测定,试分析不同肿瘤直径的胆管癌患者CA19-9水平是否存在差异?
创建代表组别的变量“group(组别)”,将胆管癌患者按肿瘤直径<2cm、2~3cm和>3cm分成3组,分别赋值为“1”、“2”、“3”;变量“CA”表示胆管癌患者CA19-9水平;“ID”表示患者编号。部分数据见图1。本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较三种不同肿瘤直径的胆管癌患者CA19-9水平是否存在差异。针对这种情况,可考虑使用Kruskal-Wallis H检验。Kruskal-Wallis H检验是基于秩次的非参数检验方法,用于检验多组间(也可以是两组)连续或有序分类变量是否存在差异。使用Kruskal-Wallis H检验,需要满足4个条件。
条件1:有一个观察变量和一个分组变量。在本案例中胆管癌患者CA19-9水平为观察变量,肿瘤直径分组为分组变量,该条件满足。
条件2:观察变量为非正态分布或方差不齐的连续变量或有序分类变量。该条件需通过软件分析进行判断。
条件3:存在多个分组(k≥2)。本研究中分为3组,该条件满足。
条件4:具有相互独立的观测值。本研究中各研究对象的CA19-9水平都是独立的,不存在互相干扰的情况,该条件满足。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件2判断(正态性检验)
(1) 软件操作
选择“统计”—“分布图”—“正态图”(图2)。进入“正态图”对话框(图3),“变量”选择“CA”,“筛选条件”选择“group=1”,“选项”勾选“Q-Q图”,“检验正态分布”选择“Shapiro-Wilk检验 (夏皮罗-威尔克正态性检验,S-W检验)”。
选择“统计”—“汇总统计”(图4)。进入“汇总统计”对话框(图5),“变量”下选择变量“CA”,筛选条件下选择“group=1”,“检验正态分布”下选择“Shapiro-Wilk检验”。
(2) 结果解读
图6为group=1的胆管癌患者CA19-9水平的Q-Q图,两组散点偏离对角线较远,提示该组数据不服从正态分布。图7中Shapiro-Wilk检验结果,W=0.8042,P=0.0228<0.1,也提示数据不服从正态分布。关于正态性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现)。
参照上述操作可得到group=2和group=3的胆管癌患者CA19-9水平的正态性检测结果(图8、图9、图10、图11),结果也提示拒绝正态性。
2.条件2判断(方差齐性检验)
(1) 软件操作
选择“统计”—“方差分析”—“方差单向分析”(图12)。进入“方差单向分析”对话框中,“数据”选择“CA”,“因子代码”选择“group”,“事后检验”选择“Scheffe”,显著性水平选择“0.05”,“检验正态分布”下选择“Shapiro-Wilk检验”,见图13。
(2) 结果解读
图14是方差齐性检验结果,“针对误差方差等式的Levene(莱文)统计”显示F=7.192,P=0.003<0.1,提示3组数据方差不齐。关于方差齐性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(4/4)——方差齐性检验及SPSS实现)。
综上,本案例中3组数据既不服从正态分布,也不满足方差齐性,可以考虑使用Kruskal-Wallis H检验。
(二) 整体检验
1. 软件操作
选择“统计”—“方差分析”—“克鲁斯卡尔沃利斯检验” (图15),进入“Kruskal-Wallis检验”对话框(图16),“数据”选择“CA”,”因子代码”选择“group”,事后检验选择“Conover”,显著性水平选择0.05。
(1) 统计描述
肿瘤直径<2cm、2~3cm和>3cm的三组患者的CA19-9水平中位数及四分位间距分别为34.00 (31.75~41.75) μg/L、367.00 (325.00~383.00) μg/L和828.00 (789.00~980.00) μg/L,见图17。三组的CA19-9水平看似存在差异,但还需要依据统计学检验的结果进行判断。
(2) 统计推断
图18显示了独立样本“克鲁斯卡尔-沃利斯检验”的详细结果,本次检验的“检验统计”为H=25.7419,“自由度(DF)”为2,“渐进显著性(双侧检验)”<0.001,可以认为不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(至少存在两组不相同) ,箱式图反映了各组的CA19-9中位数和分布情况,见图19。
(三) 事后检验(两两比较)
上述分析虽然得到了“三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同”的结论,但若要清楚了解到底是哪些组别不同,则需要进一步进行两两比较。
1. 软件操作
操作步骤同上述整体检验的软件操作步骤
2. 结果解读
图20为事后分析(Conover)结果,可知因子1与因子2、3差异有统计学意义(P<0.05),同理可知,因子1、2、3间差异均有统计学意义,即不同肿瘤直径(<2cm、2~3cm和>3cm)的胆管癌患者CA19-9水平均不相同。
四、结论
本研究采用Kruskal-Wallis H检验判断肿瘤直径<2cm、2~3cm和>3cm的胆管癌患者CA19-9含量是否不同。通过Q-Q图和Shapiro-Wilk检验,提示三组数据均不服从正态分布;通过Levene’s检验,提示三组数据总体方差不齐,符合使用Kruskal-Wallis H检验的条件。
统计结果显示,肿瘤直径<2cm、2~3cm和>3cm的胆管癌患者CA19-9水平分别为34.00 (31.75~41.75) μg/L、367.00 (325.00~383.00) μg/L和828.00 (789.00~980.00) μg/L。Kruskal-Wallis H检验结果显示,不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(H=25.7419,P<0.001)。两两比较结果显示,三组不同肿瘤直径(<2cm、2~3cm和>3cm)的胆管癌患者CA19-9水平均不相同。
五、知识小贴士
- 两独立样本资料的非参数检验,既可以采用Wilcoxon秩和检验,也可以采用Kruskal-Wallis H检验,两者检验结论一致。
- 对于参数检验,两两比较的方法有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。而对于非参数检验,如Kruskal-Wallis H检验,两两比较通常可采用DSCF(Dwass-Steel-Critchlow-Fligner)法,但在Medcalc软件中默认使用的是Conover法。
- 对于多组定量资料比较,在符合正态性和方差齐性的条件下,首选使用单因素方差分析。若不是特别严重的方差不齐,可使用单因素方差分析的校正检验方法(Welch one-way ANOVA/ Welch’s F检验);若组间方差差异较大时,建议使用非参数检验(Kruskal-Wallis H检验);若正态性和方差齐性都不满足,最好使用非参数检验(Kruskal-Wallis H检验)。
- 本案例中如果是要检验分析变量与各处理组是否有顺序效应,则可使用Jonckheere-Terpstra趋势检验。详见Jonckheere-Terpstra趋势检验(Trend Test)——MedCalc软件实现。