关键词:R语言; R软件; 非参数检验; 秩和检验; 配对样本Wilcoxon符号秩检验; 配对秩和检验
一、案例介绍
对12份血清分别用原方法(检测时间15分钟)和新方法(检测时间10分钟)测谷草转氨酶,问两种方法所得结果是否有差别?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较对同一组样品使用两种方法检测的结果是否有差异,即判断用新法与原法检测血清谷草转氨酶含量是否存在差异,属于配对设计定量资料比较的范畴。对于配对设计的连续性变量比较,可以选用配对t检验或Wilcoxon符号秩检验。配对t检验适用于两组差值近似服从正态分布的数据。当不满足该条件时,可选择Wilcoxon符号秩检验。首先,对新法与原法检测血清谷草转氨酶含量的差值进行正态性检验,若发现差值不服从正态分布,则应选用配对样本Wilcoxon符号秩检验。使用Wilcoxon 符号秩检验时,需要满足3个条件:
条件1:观察变量是连续变量或有序分类变量。本研究中的谷草转氨酶水平为连续变量,该条件满足。
条件2:观察变量可分为2组。本研究中分为原法和新法,该条件满足。
条件3:观察变量的数据结构为配对形式。本研究中数据属于同一组样品自身配对的形式,该条件满足。
三、软件操作及结果解读
(一) 导入数据
mydata <- read.csv("配对样本Wilcoxon符号秩检验.csv") #导入CSV数据 View(mydata) #查看数据
在数据栏目中可以查看全部数据情况,数据集中共有3个变量和12个观察数据,3个变量分别代表被调查者的编号(ID)、旧方法(old)及新方法(new)。
如果数据集较大也可使用如下命令查看数据框结构:
str(mydata) #查看数据框结构
(二) 适用条件判断(正态性检验)
1. 软件操作
本案例中需要判断新法与原法检测血清谷草转氨酶含量的差值是否服从正态(或近似正态)分布。
##计算新旧方法的测量差值##
d<-mydata$New-mydata$Old
##绘制Q-Q图##
qqnorm(d, ylab="d") #Q-Q图 qqline(d) #增加趋势线
##正态性检验##
shapiro.test(d) # shapiro-Wilk正态性检验
2. 结果解读
图3Q-Q图上散点与对角线的分布重合度较低,可以认为数据不服从正态分布;图4“Normality Test (Shapiro-Wilk) (夏皮罗-威尔克正态性)”检验结果显示P=0.06289<0.1,提示数据不满足正态性条件。
(三) 统计描述及推断
1. 统计描述
(1) 软件操作
##查看最大值和最小值##
summary(mydata$Old) #Old描述性统计分析 summary(mydata$New) #New描述性统计分析
(2) 结果解读
图5“summary(描述性分析)” 命令运行结果,列出了观察变量的“Min.(最小值)”、“1st Qu.(P25)”、“Median(中位数)、“Mean(平均值)”、“3rd Qu.(P75)”和“Max.(最大值)。可知,用原法检测血清谷草转氨酶的含量为166.0(P25~P75:75.0~203.5) nmol/SL;用新法检测血清谷草转氨酶的含量为171.0 (P25~ P75:80.5~226.5) nmol/SL。
2. 统计推断
(1) 软件操作
##配对样本Wilcoxon检验##
install.packages("coin") #安装R包 library(coin) wilcox.test(Pair(Old, New) ~ 1, data = mydata, alternative = "two.sided", correct = FALSE)
(2) 结果解读
由Wilcoxon符号秩检验结果可知,V = 13, P= 0.04108,提示差异有统计学意义(P<0.05),可以认为两种方法检测的结果不同。
3. 差值描述
(1) 软件操作
summary(d) #差值d的描述
(2) 结果解读
图7“summary(描述性分析)”运行结果中,列出了变化差值“d”的“Median (中位数)”为8.00 nmol/SL,P25~P75为2.00~15.25 nmol/SL。
四、结论
本研究欲比较新法与原法检测血清谷草转氨酶含量是否存在差异,对新法与原法检测数值的差值进行正态性检验发现差值不服从正态分布,故选用配对样本Wilcoxon符号秩检验进行分析。
结果显示,原法检测血清谷草转氨酶的含量为166.0 (P25~P75:75.0~203.5) nmol/SL;用新法检测血清谷草转氨酶的含量为171.0 (P25~ P75:80.5~226.5) nmol/SL,两种方法检测结果差值的中位数为8.00 (P25~P75:2.00~15.25) nmol/SL,差异有统计学意义(V = 13, P= 0.04108)。