Kruskal-Wallis H检验(Kruskal-Wallis H Test)——Stata软件实现

发布于 2022年1月9日 星期日 16:27:36 浏览:9039
原创不易,转载请注明来源,感谢!
附件下载:
多样本Kruskal-Wallis H检验.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了Kruskal-Wallis H检验(Kruskal-Wallis H Test)理论,本篇文章将使用实例演示在Stata软件中实现Kruskal-Wallis H检验(Kruskal-Wallis H Test)的操作步骤。

关键词:Stata; 非参数检验; 秩和检验; 多样本Kruskal-Wallis H检验; Kruskal-Wallis H检验; 多样本秩和检验; 事后检验

一、案例介绍

某医师对30名胆管癌患者的肿瘤直径进行了测定,其中9名患者肿瘤直径<2cm为第1组,11名患者肿瘤直径为2~3cm为第2组,10名患者肿瘤直径>3cm为第3组。同时该医生对所有患者血清中癌抗原19-9 (cancer antigens 19-9, CA19-9)水平(μg/L)进行了测定,问不同肿瘤直径的胆管癌患者CA19-9水平是否不同?部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是比较三种不同肿瘤直径的胆管癌患者CA19-9水平是否不同。针对这种情况,可考虑使用Kruskal-Wallis H检验。Kruskal-Wallis H检验是基于秩次的非参数检验方法,用于检验多组间(也可以是两组)连续或有序分类变量是否存在差异。使用Kruskal-Wallis H检验,需要满足4个条件。

条件1:有一个观察变量和一个分组变量,在本案例中胆管癌患者CA19-9水平为观察变量,肿瘤直径分组为分组变量,该条件满足。

条件2:观察变量为非正态分布或方差不齐的连续变量或有序分类变量,变量的正态性或方差齐性需要通过软件分析进行判断。

条件3:存在多个分组(k≥2)。本研究中分为三组,该条件满足。

条件4:具有相互独立的观测值。本研究中各研究对象的CA19-9水平都是独立的,不存在互相干扰的情况,该条件满足。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件2判断(正态性检验)

(1) 软件操作

①*使用Shapiro-Wilk检验分别考察每组的数据的正态性*

swilk CA if group==1

图2

swilk CA if group==2

图3

swilk CA if group==3

图4

②*绘制每组数据的正态分位图*

qnorm CA if group==1

图5

qnorm CA if group==2

图6

qnorm CA if group==3

图7
(2) 结果解读

图2、图3和图4 按照组别列出了三组的正态性检验结果,显示三组的P值分别为0.023、0.035和0.016,均<0.1,提示三组数据不服从正态分布;图5、图6、图7显示三组散点偏离对角线较远,也提示三组数据不服从正态分布。

2. 条件2判断(方差齐性检验)

(1) 软件操作

 *描述性分析*

tabstat CA if group==1, stat(count mean sd var q)

图8

tabstat CA if group==2, stat(count mean sd var q)

图9

tabstat CA if group==3, stat(count mean sd var q)

图10

*方差齐性检验*

robvar CA, by(group)

图11
(2) 结果解读

由图8、图9、图10“ tabstat(描述性分析)”中“Sd(标准差)”和“Variance (方差)”结果可知,肿瘤直径<2cm组、2~3cm组、>3cm组标准差分别为9.244、98.182和153.858,方差分别为85.444、9639.618和23672.27,三组之间标准差和方差存在较大差异,但还需要依据统计学检验的结果进行判断。

图11 中W0为Levene’s方差齐性检验结果,可见F=7.192,P=0.003<0.1,提示三组数据方差不齐。

综上,本案例中三组连续变量数据既不服从正态分布,也不满足方差齐性,可以考虑使用Kruskal-Wallis H检验。

(二) 整体检验

1. 软件操作

*Kruskal-Wallis H检验*

kwallis CA, by(group)

图12

2. 结果解读

(1) 统计描述

图8、图9、图10“tabstat(描述性分析)”提供了三组数据的“N(样本量)”、“Mean(均数)”、“p25(第1四分位数)”、“p50(中位数)”和“p75(第3四分位数)”。可知,肿瘤直径<2cm的患者CA19-9水平为34 (P25~P75:32~40) μg/L,肿瘤直径2~3cm的患者CA19-9水平为367 (P25~P75:325~385) μg/L,肿瘤直径>3cm的患者CA19-9水平为828(P25~P75:789~980) μg/L。三组的CA19-9值貌似存在差异,但还需要依据统计学检验的结果进行判断。

(2) 统计学推断

图12“Kruskal-Wallis”(Kruskal-Wallis H检验)中提供了Kruskal-Wallis H检验分析的“chi-squared(卡方检验)”、“df(自由度)”、“probability(P值)”。

可知,χ2=25.748,df=2,P<0.001,可认为三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(至少存在两组不相同)。

(三) 事后检验(两两比较)

虽然得到了“三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同”的结论,但我们仍然不清楚到底是哪两组之间不同,因此需要进一步两两比较。

1. 软件操作

①*安装kwallis2模块*

help kwallis2

图13

在图13页面中点击红色框内链接。

图14

在图14页面中点击“click here to install”。

②*两两比较的Kruskal-Wallis检验*

kwallis2 CA, by(group)

图15

2. 结果解读

如图13、图14,在进行kruskal-wallis test两两比较之前需要安装kwallis2模块,可通过help搜索到kwallis2安装包,并进行安装。

图15 kruskal-wallis test(H检验)中提供了不同肿瘤直径胆管癌患者CA19-9水平两两比较的统计量“Rankmeans difference(等级均值差)” “Critical value(临界值)”和P值。可知,肿瘤直径<2cm的患者CA19-9水平和肿瘤直径2~3cm的患者CA19-9水平差异有统计学意义(P=0.0060.05),肿瘤直径2~3cm的患者CA19-9水平和肿瘤直径>3cm的患者CA19-9水平差异有统计学意义(P=0.0030.05),肿瘤直径<2cm的患者CA19-9水平和肿瘤直径>3cm的患者CA19-9水平差异有统计学意义(P<0.001)。

四、结论

本研究采用Kruskal-Wallis H检验判断不同肿瘤直径的胆管癌患者CA19-9水平是否不同。通过正态分位图和Shapiro-Wilk检验,提示三组数据不服从正态分布;通过Levene’s检验,提示三组数据总体方差不齐,符合使用Kruskal-Wallis H检验的条件。

结果显示,肿瘤直径<2cm、2~3cm和>3cm的患者CA19-9水平分别为,34 (P25~P75:32~40) μg/L,367 (P25~P75:325~385) μg/L,828(P25~P75:789~980) μg/L。Kruskal-Wallis H检验结果显示,三种不同肿瘤直径的胆管癌患者的CA19-9水平不全相同(χ2=25.748,P<0.001)。通过两两比较显示,不同肿瘤直径的胆管癌患者CA19-9水平均不相同。

End
文章目录 沉浸式阅读