关键词:Stata; 非参数检验; 秩和检验; 多样本Kruskal-Wallis H检验; Kruskal-Wallis H检验; 多样本秩和检验; 事后检验
一、案例介绍
某医师对30名胆管癌患者的肿瘤直径进行了测定,其中9名患者肿瘤直径<2cm为第1组,11名患者肿瘤直径为2~3cm为第2组,10名患者肿瘤直径>3cm为第3组。同时该医生对所有患者血清中癌抗原19-9 (cancer antigens 19-9, CA19-9)水平(μg/L)进行了测定,问不同肿瘤直径的胆管癌患者CA19-9水平是否不同?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较三种不同肿瘤直径的胆管癌患者CA19-9水平是否不同。针对这种情况,可考虑使用Kruskal-Wallis H检验。Kruskal-Wallis H检验是基于秩次的非参数检验方法,用于检验多组间(也可以是两组)连续或有序分类变量是否存在差异。使用Kruskal-Wallis H检验,需要满足4个条件。
条件1:有一个观察变量和一个分组变量,在本案例中胆管癌患者CA19-9水平为观察变量,肿瘤直径分组为分组变量,该条件满足。
条件2:观察变量为非正态分布或方差不齐的连续变量或有序分类变量,变量的正态性或方差齐性需要通过软件分析进行判断。
条件3:存在多个分组(k≥2)。本研究中分为三组,该条件满足。
条件4:具有相互独立的观测值。本研究中各研究对象的CA19-9水平都是独立的,不存在互相干扰的情况,该条件满足。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件2判断(正态性检验)
(1) 软件操作
①*使用Shapiro-Wilk检验分别考察每组的数据的正态性*
swilk CA if group==1
swilk CA if group==2
swilk CA if group==3
②*绘制每组数据的正态分位图*
qnorm CA if group==1
qnorm CA if group==2
qnorm CA if group==3
(2) 结果解读
图2、图3和图4 按照组别列出了三组的正态性检验结果,显示三组的P值分别为0.023、0.035和0.016,均<0.1,提示三组数据不服从正态分布;图5、图6、图7显示三组散点偏离对角线较远,也提示三组数据不服从正态分布。
2. 条件2判断(方差齐性检验)
(1) 软件操作
① *描述性分析*
tabstat CA if group==1, stat(count mean sd var q)
tabstat CA if group==2, stat(count mean sd var q)
tabstat CA if group==3, stat(count mean sd var q)
②*方差齐性检验*
robvar CA, by(group)
(2) 结果解读
由图8、图9、图10“ tabstat(描述性分析)”中“Sd(标准差)”和“Variance (方差)”结果可知,肿瘤直径<2cm组、2~3cm组、>3cm组标准差分别为9.244、98.182和153.858,方差分别为85.444、9639.618和23672.27,三组之间标准差和方差存在较大差异,但还需要依据统计学检验的结果进行判断。
图11 中W0为Levene’s方差齐性检验结果,可见F=7.192,P=0.003<0.1,提示三组数据方差不齐。
综上,本案例中三组连续变量数据既不服从正态分布,也不满足方差齐性,可以考虑使用Kruskal-Wallis H检验。
(二) 整体检验
1. 软件操作
*Kruskal-Wallis H检验*
kwallis CA, by(group)
2. 结果解读
(1) 统计描述
图8、图9、图10“tabstat(描述性分析)”提供了三组数据的“N(样本量)”、“Mean(均数)”、“p25(第1四分位数)”、“p50(中位数)”和“p75(第3四分位数)”。可知,肿瘤直径<2cm的患者CA19-9水平为34 (P25~P75:32~40) μg/L,肿瘤直径2~3cm的患者CA19-9水平为367 (P25~P75:325~385) μg/L,肿瘤直径>3cm的患者CA19-9水平为828(P25~P75:789~980) μg/L。三组的CA19-9值貌似存在差异,但还需要依据统计学检验的结果进行判断。
(2) 统计学推断
图12“Kruskal-Wallis”(Kruskal-Wallis H检验)中提供了Kruskal-Wallis H检验分析的“chi-squared(卡方检验)”、“df(自由度)”、“probability(P值)”。
可知,χ2=25.748,df=2,P<0.001,可认为三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(至少存在两组不相同)。
(三) 事后检验(两两比较)
虽然得到了“三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同”的结论,但我们仍然不清楚到底是哪两组之间不同,因此需要进一步两两比较。
1. 软件操作
①*安装kwallis2模块*
help kwallis2
在图13页面中点击红色框内链接。
在图14页面中点击“click here to install”。
②*两两比较的Kruskal-Wallis检验*
kwallis2 CA, by(group)
2. 结果解读
如图13、图14,在进行kruskal-wallis test两两比较之前需要安装kwallis2模块,可通过help搜索到kwallis2安装包,并进行安装。
图15 kruskal-wallis test(H检验)中提供了不同肿瘤直径胆管癌患者CA19-9水平两两比较的统计量“Rankmeans difference(等级均值差)” “Critical value(临界值)”和P值。可知,肿瘤直径<2cm的患者CA19-9水平和肿瘤直径2~3cm的患者CA19-9水平差异有统计学意义(P=0.006<0.05),肿瘤直径2~3cm的患者CA19-9水平和肿瘤直径>3cm的患者CA19-9水平差异有统计学意义(P=0.003<0.05),肿瘤直径<2cm的患者CA19-9水平和肿瘤直径>3cm的患者CA19-9水平差异有统计学意义(P<0.001)。
四、结论
本研究采用Kruskal-Wallis H检验判断不同肿瘤直径的胆管癌患者CA19-9水平是否不同。通过正态分位图和Shapiro-Wilk检验,提示三组数据不服从正态分布;通过Levene’s检验,提示三组数据总体方差不齐,符合使用Kruskal-Wallis H检验的条件。
结果显示,肿瘤直径<2cm、2~3cm和>3cm的患者CA19-9水平分别为,34 (P25~P75:32~40) μg/L,367 (P25~P75:325~385) μg/L,828(P25~P75:789~980) μg/L。Kruskal-Wallis H检验结果显示,三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(χ2=25.748,P<0.001)。通过两两比较显示,不同肿瘤直径的胆管癌患者CA19-9水平均不相同。