配对样本Wilcoxon符号秩检验(Paired Samples Wilcoxon Signed Rank Test)——Python软件实现

发布于 2023年4月15日 星期六 01:27:43 浏览:1599
原创不易,转载请注明来源,感谢!
附件下载:
配对样本Wilcoxon符号秩检验.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了配对样本Wilcoxon符号秩检验(Paired Samples Wilcoxon Signed Rank Test)的假设检验理论,本篇文章将实例演示在Python软件中实现配对样本Wilcoxon符号秩检验的操作步骤。

关键词:Python软件; 非参数检验; 秩和检验; 配对样本Wilcoxon符号秩检验; 配对秩和检验

一、案例介绍

对12份血清分别用原方法(检测时间15分钟)和新方法(检测时间10分钟)测谷草转氨酶,问两种方法所得结果是否有差别?部分数据见图1。本案例数据可从“附件下载”处下载。

二、问题分析

本案例的分析目的是比较对同一组样品使用两种方法检测的结果是否有差异,即判断用新法与原法检测血清谷草转氨酶含量是否存在差异,属于配对设计定量资料比较的范畴。对于配对设计的连续性变量比较,可以选用配对t检验或Wilcoxon符号秩检验。配对t检验适用于两组差值近似服从正态分布的数据。当不满足该条件时,可选择Wilcoxon符号秩检验。首先,对新法与原法检测血清谷草转氨酶含量的差值进行正态性检验,若发现差值不服从正态分布,则应选用配对样本Wilcoxon符号秩检验。使用Wilcoxon 符号秩检验时,需要满足3个条件:

条件1:观察变量是连续变量或有序分类变量。本研究中的谷草转氨酶水平为连续变量,该条件满足。

条件2:观察变量可分为2组。本研究中分为原法和新法,该条件满足。

条件3:观察变量的数据结构为配对形式。本研究中数据属于同一组样品自身配对的形式,该条件满足。

三、软件操作及结果解读

(一) 导入数据

import pandas as pd #导入pandas包
df = pd.read_csv('配对样本Wilcoxon符号秩检验.csv')  #导入csv数据
pd.set_option('display.max_rows', 10)
df  #查看数据

图1

在数据栏目中可以查看数据情况(图1),数据集中共有3个变量和12个观察数据,3个变量分别代表被调查者的编号(ID)、旧方法(Old)及新方法(New)。

(二) 适用条件判断(正态性检验)

1. 软件操作

本案例中需要判断新法与旧法检测血清谷草转氨酶含量的差值是否服从正态(或近似正态)分布。

##计算新旧方法的测量差值##

df['d'] = df['New'] - df['Old']

##绘制Q-Q图##

import statsmodels.api as sm
import pylab
sm.qqplot(df.d, line='s')
pylab.show()

图2

##正态性检验##

from scipy.stats import shapiro
shapiro(df.d) # Shapiro-Wilk正态性检验

图3

2. 结果解读

Q-Q图上散点与对角线的分布重合度较低(图2),可以认为数据不服从正态分布; “ShapiroResult”即Shapiro-Wilk正态性检验结果(图3)显示P=0.06289<0.1,提示数据不满足正态性条件。关于正态性检验的注意事项详见文章正态性假设检验(Normality Hypothesis Test)——SPSS软件实现

(三) 统计描述及推断

1. 统计描述

(1) 软件操作

##查看最大值和最小值##

df.Old.describe()  #旧方法描述性统计分析

图4

df.New.describe()  #新方法描述性统计分析

图5

(2) 结果解读

“describe(描述性分析)”命令运行结果(图4、图5),分别列出了“旧方法”和“新方法”观察变量的“mean (均数)”、“std (标准差)”、“min (最小值)”、“25% (下四分位数)”、“50% (中位数)”、“75% (上四分位数)”和“max (最大值)”。可知,用原法检测血清谷草转氨酶的含量为166.0 (P25~P75:75.0~203.5) nmol/SL;用新法检测血清谷草转氨酶的含量为171.0 (P25~ P75:80.5~226.5) nmol/SL。

2. 统计推断

(1) 软件操作

##配对样本Wilcoxon检验##

from scipy import stats
stats.wilcoxon(df.New,df.Old)

图6

(2) 结果解读

Wilcoxon符号秩检验结果(图6)显示,W = 13, P= 0.04248,提示差异有统计学意义(P<0.05),可以认为两种方法检测的结果不同。

3. 差值描述

(1) 软件操作

df.d.describe() #差值d的描述

图7

(2) 结果解读

“describe (描述性分析)”运行结果(图7)显示,变化差值“d”的“50% (中位数)”为8.00 nmol/SL,P25~P75为2.00~15.25 nmol/SL。

四、结论

本研究欲比较新法与原法检测血清谷草转氨酶含量是否存在差异,对新法与原法检测数值的差值进行正态性检验发现差值不服从正态分布,故选用配对样本Wilcoxon符号秩检验进行分析。

结果显示,原法检测血清谷草转氨酶的含量为166.0 (P25~P75:75.0~203.5) nmol/SL;用新法检测血清谷草转氨酶的含量为171.0 (P25~ P75:80.5~226.5) nmol/SL,两种方法检测结果差值的中位数为8.00 (P25~P75:2.00~15.25) nmol/SL,差异有统计学意义(W = 13, P= 0.04248),可以认为两种方法检测的结果不同。

五、知识小贴士

  • 两组配对设计在临床研究中经常使用,针对连续性变量,主要有配对样本t检验和配对样本Wilcoxon符号秩检验两种分析方法。配对样本t检验的限制条件较多(详见配对样本t检验(Paired Samples t-test)——Python软件实现),但统计学效能更高;Wilcoxon符号秩检验的限制条件较少,但统计效能相较于配对样本t检验低。对于定量资料,若不满足正态性和方差齐性条件,这时小样本资料应选择秩转换的非参数检验更为恰当。
  • 尽管通常认为参数检验的统计学效能优于非参数检验,但这指的是在满足参数检验的适用条件前提下,当不满足参数检验的适用条件时强行使用参数检验会降低其统计学效能,甚至会得出错误的结果。

六、分析小技巧

End
文章目录 沉浸式阅读