关键词:MedCalc; 相关分析; Pearson相关分析; 连续变量相关分析; Pearson相关系数
一、案例介绍
某研究者研究健康成年人的体重和双肾脏总体积(ml)的关系,测得24名健康成年人的体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾体积是否有关。部分数据见图1。本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是探索两个连续变量之间的相关性,可以使用Pearson相关分析。但需要满足5个条件。
条件1:两个变量均为连续变量。本研究中的成人体重和双肾总体积均为连续变量,该条件满足。
条件2:两个连续变量应当是配对的,即来源于同一个个体。本研究中同时检测了研究对象的体重和双肾总体积,变量之间是对应关系,该条件满足。
条件3:两个连续变量之间存在线性关系,该条件需要通过软件分析后判断。
条件4:两个变量都不存在明显的异常值,该条件需要通过软件分析后判断。
条件5:两个变量呈双变量正态分布或近似正态分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(线性关系分析)
(1) 软件操作
点击“统计”—“相关”—“散布图”(图2)
在“散布图”主对话框中设置如下参数(图3),并点击确定
- 变量Y:即纵轴变量。本例选“volume”。
- 变量X:即横轴变量。本例选“wt”。
- 筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
- 选项:“对数变换Y”表示将变量Y进行对数变换,“对数变换X”表示将变量X进行对数变换,“均等线”表示在图形中绘制均等线(y=x),“热图”表示在图中绘制热图。本例选“热图”。
- 趋势线:可选择绘制以下类型趋势线:“移动平均趋势线”可显示平滑资料的波动并将趋势显示得更明显,窗口宽度即为指定数量的数据点,移动平均趋势线将根据这些数据点的平均值作为趋势线的点;“LOESS平滑”即为局部回归平滑趋势线,跨度为用于每个局部拟合线的数据点数占所有数据点的比例,跨度值最大时为平滑趋势线;“降低的主轴线”显示压轴回归线,可同时考虑因变量(Y轴)和自变量(X轴)的测量误差,;
“同位素回归曲线”此处不适用。本例选“降低的主轴线”。
(2) 结果解读
图4为成人体重和双肾总体积关系的散点图。可见,散点大致呈一条直线,说明存在线性关系。该条件满足。
2. 条件4判断(异常值判断)
(1) 软件操作
先检测变量“volume”的异常值情况。
- 点击“统计”—“异常值检测”(图5)
- 在“异常值检测”主对话框中设置如下参数(图6),并点击确定
①变量:即包含分析资料的变量。本例选“volume”。
②筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
③异常值检测方法:“Grubbs-左侧”表示进行只检查最小值的Grubbs检验;“Grubbs-右侧”表示进行只检查最大值的Grubbs检验;“Grubbs-两侧”表示进行检查两侧极端值的Grubbs检验;“生成的ESD检验”即广义ESD检验,可一次检测多个异常值,可设置最多可检测的异常值数,默认为10;“Turkey”即Turkey检验,可检出两侧的多个异常值。本例选后三种检测方法。
④选项:“Alpha级”表示进行Grubbs检验和ESD检验时的检验水准,本例选“0.05”;“对数变换”表示当资料不服从正态分布时可对变量进行对数变换后再分析;“检验正态分布”选择进行正态分布检验的方法。本例选“Shapiro-Wilk检验”。
(2) 结果解读
图7中,列出了观察变量“volume”的最小值和最大值,依据专业可判双肾总体积可能存在212.98 ml和347.6 ml的情况;此外,Grubbs和Turkey检验也未提示任何异常值。点击图7右下角“盒形图”,弹出“盒形图”对话框(图8),点击“确定”,可得到变量“volume”的盒形图(图9)。
参照变量“volume”的异常值检测过程,可检测变量“wt”的异常值情况,也未发现异常值。此外,通过图4的散点图也可大致判断不存在明显的异常值。综上,本案例未发现需要处理的异常值,满足条件4。
3. 条件5判断(正态性检验)
(1) 软件操作
Pearson相关分析要求变量呈双变量正态分布,而并非简单的要求两个自变量各自服从正态分布。有实验模拟显示,采用Shapiro-Wilk检验同时考察双变量正态分布和两变量分别的正态分布,在重复1万次服从两变量正态分布的实验中若以P=0.1为界值时,约有11%的实验不服从双变量正态分布;若以P=0.05为界值时,约有6%的实验不服从双变量正态分布。由于在MedCalc软件中,尚无考察双变量正态分布的程序,且该条件比较宽松,因此可以考察两个自变量各自的正态分布情况代替分析双变量正态分布。先检测变量“volume”的正态性情况。
- 点击“统计”—“分布图”—“正态图”(图10)
- 在“正态图”主对话框中设置如下参数(图11),并点击确定
①变量:即包含分析资料的变量。本例选“volume”。
②筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
③选项:勾选“Q-Q图”,可以通过绘制的Q-Q图粗略评价资料是否服从正态分布。“检验正态分布”选择正态性检验的方法;“Shapiro-Wilk检验”常用于3≤n≤50的小样本资料,“Shapiro-Francia检验”常用于5≤n≤5000的资料,“D’Agostino-Pearson检验”常用于50≤n≤1000的资料,“Kolmogorov-Smirnov检验”常用于n>50的资料,“卡方检验”常用于分箱资料,本例选“Shapiro-Wilk检验”。
- 点击“统计”—“汇总统计”(图12)
- 在“汇总统计”主对话框中设置如下参数(图13),并点击“确定”
①变量:即包含分析资料的变量。本例选择“volume”。
②筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
③选项:当资料为正偏态时可考虑进行对数变换。本例不勾选“对数变换”;“检验正态分布”依然选“Shapiro-Wilk检验”。
(2) 结果解读
图14列出了变量“volume”的Q-Q图,可见散点基本围绕对角线分布,提示服从正态分布。图15为变量“volume”的正态性检验结果, W=0.9528,P=为0.3116>0.1,也提示服从正态分布。
参照变量“volume”的正态性检测过程,可检测变量“wt”的正态性情况,也提示服从正态分布。综上,本案例满足条件5。关于正态性检验的注意事项详见推文(医学统计学核心概念及重要假设检验的软件实现(2/4)——正态性假设检验的SPSS实现)。
(二) 统计描述及推断
1. 软件操作
- 点击“统计”—“相关”—“相关系数”(图16)
- 在“相关系数”主对话框中设置如下参数(图17),并点击确定
①变量Y:即因变量。本例选择“volume”。
②变量X:即自变量。本例选择“wt”。
③筛选条件:即设定统计分析的个案子组。本例未选择任何变量。
④选项:可对对两个变量可进行对数变换。本例未勾选。
2. 结果解读
(1) 统计描述
健康成年人的体重为(59.83±14.39)kg(读者可自行操作),双肾总体积(269.78±39.29) ml。
(2) 统计学推断
图18为Pearson相关性分析结果,可知两组变量Pearson相关系数r =0.9467,P<0.0001。可知本研究样本人群的双肾总体积与体重之间存在高度线性相关。
四、结论
本研究采用Pearson相关分析判断健康成人的双肾总体积与体重是否有关。通过绘制散点图显示两变量之间存在正向线性关系;通过箱线图及专业知识判断,数据不存在需要处理的异常值;通过Q-Q图和Shapiro-Wilk检验,提示两个变量均服从正态分布。
描述性分析结果显示,健康成年人的体重为(59.83±14.39) kg,双肾总体积为(269.78±39.29) ml。Pearson相关分析显示,健康成人的双肾总体积与体重之间的Pearson相关系数r =0.947 (95%CI:0.879 ~ 0.977) ,P<0.0001。综上,可知本研究样本人群的双肾总体积与体重之间存在高度线性正相关。
五、分析小技巧
(一) 线性关系
- 要确定是否存在线性关系,研究者需要查看两个变量的散点图,如果散点图大致呈一条直线,说明有线性关系,如果不是一条直线则没有线性关系。常见散点图提示的相关类型见图19。
(二) 异常值处理
- 首先要考虑数据是否存在录入错误。如果存在,应修改为正确值。错误数值修订后,需要重新再做散点图,因为修订数值后,可能仍是异常值或者其他的观测值成为了异常值。
- 若不是录入错误,则考虑是否为测量误差。如果存在,通常需剔除这些观测值,或将异常值替换为测量范围的上限值(研究者确认异常值超出仪器测量范围并且知道测量错误的方向)。
- 若不属于以上两种情况,则异常值可能代表了真实的数据情况。尽管这些数据并不符合统计预期,但也没有理由删除,对这种情况的处理方法目前还没有统一标准。研究者可以根据实际情况选择合适的方法,也可以咨询相关专业人员。
(三) 相关系数
- Pearson相关系数r,是表示两个随机变量之间线性相关程度和方向的统计量。即r>0,为正相关;r=0为零相关;r<0为负相关。
- r的绝对值大小则表示两变量之间线性相关的密切程度。|r|越接近1,说明关联程度高;|r|越接近于0,说明关联程度越低。当0.9<|r|<1时,为高度相关;当0.7<|r|<0.9,为强相关;0.4<|r|<0.7,为中度相关;0.2<|r|<0.4,为弱相关;0<|r|<0.2,为极弱相关或无相关。
- 关于相关系数强弱的判断标准,对于不同专业存在稍微的差异,使用时需要结合专业背景综合决定。此外,Pearson相关系数多用于进行多重线性回归分析前的探索性分析,此时对于相关系数r的判断分级并不是很重要。