关键词:MedCalc; 相关分析; Spearman相关分析; 连续变量相关分析; Spearman相关系数; 等级相关分析; 秩相关
一、案例介绍
某医师收集了224例肺癌患者的生存时间(Time)和患者自评的卡氏评分(pat.karno)。问患者自评的卡氏评分与其生存时间是否相关。部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是检验患者自评的卡氏评分与其生存时间是否相关,即探究自评卡氏评分与生存时间的相关性。两个变量均为定量变量,可以采用Pearson相关性分析或Spearman相关性分析;若变量不满足双变量正态分布,可使用Spearman相关性分析。
使用Spearman相关性分析需要满足两个条件:
条件1:变量不满足双变量正态分布或总体分布未知或为等级资料。
条件2:两变量之间为单调关系。
三、软件操作及结果解读
(一) 数据准备
- 点击左侧“变量”,出现“变量”对话框,在此处选中需要进行标签设置的变量后点击右侧“属性”(图2),即可出现“变量属性”对话框。
- 在“变量属性”对话框中设置变量“pat.karno”的标签(图3),再同样设置“Time”的标签。
(二) 适用条件判断
1. 条件1判断(正态性检验)
Pearson相关分析要求变量呈双变量正态分布,而并非简单的要求两个自变量各自服从正态分布。
有实验模拟显示,采用Shapiro-Wilk检验同时考察双变量正态分布和两变量分别的正态分布,在重复1万次服从两变量正态分布的实验中若以P=0.1为界值时,约有11%的实验不服从双变量正态分布;若以P=0.05为界值时,约有6%的实验不服从双变量正态分布。
在MedCalc软件中,尚无考察双变量正态分布的程序,且该条件比较宽松,因此,可以考察两个自变量各自的正态分布情况代替分析双变量正态分布。
(1) 软件操作
- 点击“统计”—“分布图”—“正态图”(图4)
- 在“正态图”主对话框中,以变量“pat.karno”为例,设置如下参数(图5),并点击“确定”
①变量:即包含分析资料的变量,本例选择“pat.karno”
②筛选条件:即设定统计分析的个案子组,本例未选择任何变量
③选项:勾选“Q-Q图”,粗略评价资料是否服从正态分布;“检验正态分布”,主要包括“Shapiro-Wilk检验”(常用于3≤n≤50的小样本资料)、“Shapiro-Francia检验”(常用于5≤n≤5000的资料)、“D’Agostino-Pearson检验”(常用于50≤n≤1000的资料)、“Kolmogorov-Smirnov检验”(常用于n>50的资料)、“卡方检验”(适用于分箱资料),本例选择“Shapiro-Wilk检验”
- 点击“统计”—“汇总统计”(图6)
- 在“汇总统计”主对话框中设置如下参数(图7),并点击“确定”
①变量:即包含分析资料的变量,本例选择“pat.karno”。
②筛选条件:即设定统计分析的个案子组,本例未选择任何变量。
③选项:当资料为正偏态时可考虑对数变换,本例不勾选“对数转换”;检验正态分布,选择“Shapiro-Wilk检验”
(2) 结果解读
图8、图9分别是正态性检验的Q-Q图、假设检验结果。图8的Q-Q图上显示变量“pat.karno”的散点偏离对角线分布较多,提示不服从正态分布。图9显示变量“pat.karno”的正态性检验W=0.9194,P<0.001,也提示不满足正态性要求。
变量“Time”的正态性检验过程参照变量“pat.karno”,结果提示也不服从正态分布。
综上,本案例满足条件1,即为数据不服从双变量正态分布。关于正态性检验的注意事项详见推文(医学统计学核心概念及重要假设检验的软件实现(2/4)——正态性假设检验的SPSS实现) (链接)。
2. 条件2判断(单调性)
(1) 软件操作
- 点击“统计”—“相关”—“散布图”(一般称为“散点图”)(图10)
- 在“散布图”主对话框中设置如下参数(图11),并点击确定
①变量Y:即纵轴变量,本例选择“Time”
②变量X:即横轴变量,本例选择“pat.karno”
③筛选条件:即设定统计分析的个案子组,本例未选择任何变量。
④选项:“对数变换Y”表示将变量Y进行对数变换,“对数变换X”表示将变量X进行对数变换,“均等线”表示在图形中绘制均等线(y=x),“热图”表示在图中绘制热图。本例选择“热图”。
⑤趋势线:可选择绘制以下类型趋势线:“移动平均趋势线”可显示平滑资料的波动并将趋势显示得更明显,“窗口宽度”即为指定数量的数据点,移动平均趋势线将根据这些数据点的平均值作为趋势线的点;“LOESS平滑”即为局部回归平滑趋势线,“跨度”为用于每个局部拟合线的数据点数占所有数据点的比例,跨度值最大时为平滑趋势线;“降低的主轴线”显示压轴回归线,可同时考虑因变量(Y轴)和自变量(X轴)的测量误差;“同位素回归曲线”此处不适用。本例选择“降低的主轴线”。
(2) 结果解读
图12是单调性的图示结果,可知生存时间随卡氏评分的增加而增加,呈单调关系,即本案例数据满足条件2。
(三) 统计描述及推断
1. 软件操作
- 点击“统计”—“相关”—“等级相关”(图13)
- 在“等级相关”主对话框中设置如下参数(图14),并点击“确定”
①变量Y:即因变量,本例选择“Time”
②变量X:即自变量,本例选择“pat.karno”
③筛选条件:即设定统计分析的个案子组,本例未选择任何变量
④相关系数:包括“Spearman rho”即Spearman等级相关系数rs及其P值和95%CI;“Kendall’s tau”即Kendall r 等级相关系数及其P值和95%CI。本例选择“Spearman rho”
2. 结果解读
图15 是Spearman相关分析的结果,给出了患者自评卡氏评分(pat.karno)与生存时间(Time)的Spearman相关系数和假设检验的P值。可知,患者的自评卡氏评分与生存时间有相关性,Spearman相关系数rs=0.220,P<0.001,两变量间呈弱相关。
四、结论
本研究采用Spearman相关性分析对患者自评卡氏评分(pat.karno)与生存时间(Time)的相关性进行了检验。通过Q-Q图和Shapiro-Wilk检验,提示数据为偏态分布,通过绘制散点图显示两变量之间呈单调关系。
Spearman相关性分析结果显示,患者的自评卡氏评分与生存时间之间为正相关(rs=0.220,P<0.001),卡氏评分越高,患者的生存时间越长,但相关程度较弱。
五、分析小技巧
- Spearman相关,又称秩相关、等级相关,是对两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围较广。对于服从Pearson相关的数据亦可计算Spearman相关系数,但统计效能更低。
- Spearman相关系数(rs)介于-1与1之间,rs >0为正相关,rs <0为负相关。rs的绝对值(|rs |)越大,变量间的相关性越强。
- 参考Pearson相关系数对rs进行等级划分:当0.9<|r|<1,为高度相关;当0.7<|r|<0.9,为强相关;0.4<|r|<0.7,为中度相关;0.2<|r|<0.4,为弱相关;0<|r|<0.2,为极弱相关或无相关性。