关键词:非参数检验; 秩和检验; 单样本Wilcoxon符号秩检验; 单样本秩和检验
对于以下情形,常使用秩转换的非参数检验:①对于计量资料,若不满足正态和方差齐性条件,这时小样本资料选t检验或F检验是不妥的,而选秩转换的非参数检验是恰当的;②对于分布不知是否正态的小样本资料,为保险起见,宜选秩转换的非参数检验;③对于一端或两端是不确定数值(如<20岁、≥65岁等)的资料,不管是否正态分布,只能选秩转换的非参数检验;④对于等级资料,若选择行×列(R×C)列联表资料的\(\chi^2\)检验,只能推断构成比差别,而选择秩转换的非参数检验,可推断等级强度差别。
需要注意的是,如果已知计量资料满足(或近似满足)t检验或F检验条件,应选t检验或F检验;若选秩转换的非参数检验,会降低检验效能。
秩转换的非参数检验主要包括单个样本中位数和总体中位数比较的单样本Wilcoxon符号秩检验(One Sample Wilcoxon Signed Rank Test)、两个独立样本比较的Wilcoxon秩和检验 (Wilcoxon Rank Sum Test)、配对样本差值的中位数和0比较的配对样本Wilcoxon符号秩检验(Paired Samples Wilcoxon Signed Rank Test)、完全随机设计多个独立样本比较的Kruskal-Wallis H检验(Kruskal-Wallis H Test)、随机区组设计多个相关样本比较的Friedman M检验(The Friedman Non-parametric Repeated Measures ANOVA Test)。本篇文章将举例介绍单样本Wilcoxon符号秩检验的假设检验理论。
一、适用条件
单样本Wilcoxon符号秩检验的目的是推断样本所来自的总体中位数M和某个已知的总体中位数M0是否有差别。用样本各变量值和M0的差值,即推断差值的总体中位数和0是否有差别。其适用条件为:观察变量为不满足正态分布的连续变量。
二、统计量计算
(一) T值法
T值法是指对数据编秩计算后,通过T值表确定P值,做出统计推断。
1. 检验统计量T值的计算
(1)每个样本数据都与已知总体中位数M0配成对子,并计算差值;(2)省略所有差值为0的对子数,令余下的有效对子数为n;(3)按n个差值的绝对值从小到大编正秩和负秩,遇差值的绝对值相等者取平均秩,称为相同秩(ties)(样本较小时,如果相同秩较多,检验结果会存在偏性,因此应提高测量精度,尽量避免出现较多相同秩);(4)任意取正秩和(T+)或负秩和(T-)为T。
2. 确定P值,做出统计推断
当n≤50时,查(T值界值表)。查表时,自左侧找到n,将检验统计量T值与相邻左侧一栏的界值相比,若T在上、下界值范围内,其P值大于表上方相应概率水平;若T值恰好等于界值,其P值等于(一般是近似等于)相应概率水平;若T值在上、下界值范围外,其P值小于相应概率水平,可向右移一栏,再与界值相比。
3. T界值表制作的原理
为简单起见,现以对子数为4进行介绍(T界值表)的编制原理:假定配对的有效对子数n=4,总体秩为1,2,3,4。正秩(或负秩)从总体中取秩,可取0个、1个、2个、3个和4个,取秩的16种可能组合情况及秩和T见图1。
每种组合情况所对应的T取值的概率为1/16=0.0625。归纳成n=4时T的概率分布见图2。
T的概率分布是对称的非连续分布。T的最小值为0,最大值为n(n+1)/2,均数为n(n+1)/4。如n=4时,最大值为10,均数为5。
根据图2可计算n=4时T的单侧和双侧累计概率。如T为0~10的单侧累计概率等于0.0625(P(0)或P(10)),双侧累计概率等于0.125(P(0)+P(10));T为1~9的单侧累积概率等于0.125(P(0)+P(1)或P(9)+P(10)),双侧累积概率等于0.25(P(0)+P(1)+P(9)+P(10))。无论n有多大,其T界值的制作步骤和n=4时相同。由于n=4时最小单侧累计概率大于0.05,故(T界值表)的n从5起。T的下侧界值与上侧界值之和为n(n+1)/2,由于正秩和与负秩之和也为n(n+1)/2,故若正秩和(T+)、负秩和(T-)中的小者小于或等于下侧界值,则大者大于或等于上侧界值。
(二) 正态近似法
当n增加时,T分布接近均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布。当n>50 时,近似程度已较为满意,故可按照正态分布的原理,利用以下公式计算u值。
\( u=\frac{|T-n(n+1) / 4|-0.5}{\sqrt{n(n+1)(2 n+1) / 24}} \)公式中的0.5是连续校正系数,因为u值是连续的,而T值是不连续的。
当相同的秩次较多时(指绝对值,不包括差值为0者),用上述公式求得u值偏小,需用以下公式进行校正。
\( u_c=\frac{|T-n(n+1) / 4|-0.5}{\sqrt{\frac{n(n+1)(2 n+1)}{24}-\frac{\sum\left(t_{j}^{3}-t_{j}\right)}{48}}} \)式中tj(j=1,2,…)为第j个相同秩的个数,假定相同秩(即平均秩)中有2个4,5个6,3个7,则t1=2,t2=5,t3=3, \( \sum(t_j^3-t_j)=(2^3-2)+(5^3-5)+(3^3-3)=150 \)
三、案例数据
某地正常人尿氟含量的中位数为45.20μmol/L。今在该地某厂随机抽取12名工人,测得尿氟含量。问该厂工人的尿氟含量是否与当地正常人的尿氟含量有差异?数据见图3。
四、假设检验
本例样本资料经 “Normality Test (Shapiro-Wilk) (夏皮罗-威尔克正态性)”正态性检验结果显示P=0.062<0.1,提示数据不满足正态性条件。可使用单样本Wilcoxon符号秩检验。
(一) 建立检验假设,确定检验水准
H0:尿氟含量的总体中位数M=45.20μmol/L
α = 0.05
(二) 计算检验统计量
1. 计算差值
使用新发减去原法计算两组数据的差值,即图4中(2)= (1)-45.2。
2. 编秩
(1)将图4中差值都取绝对值。
(2)以绝对值的大小从小到大编秩次(即编秩序号);若遇到差值为0的对子数应舍去,同时样本例数相应减少;若遇到绝对值相等的差值,则取平均秩次,又称同秩或结。
(3)让秩次保持原差值的正负号(即符号秩)。
(4)求秩和,正秩和(T+)为76,负秩和(T-)为2。本例有效差值个数n=12,则总秩和为T=n(n+1)/2=12(12+1)/2=78。正秩和与负秩和相加为76+2=78,秩和计算无误。
3. 计算T值
据图4第(3)和(4)栏,取T=2或T=76。
(三) 确定P值,作出推断结论
本例有效差值个数n=12。据n=12和T=2或T=76查(T界值表),得单侧P<0.005,按α=0.05水准,拒绝H0,接受H1,可认为该厂工人的尿氟含量高于当地正常人的尿氟含量。