关键词:MedCalc; 偏相关分析;
在医学研究中,由于变量间关系错综复杂,任何两个变量间的相关常夹杂着其他变量的影响。为了消除这些影响,使两变量间的相关关系能得到真实的反映,必须在排除其他变量影响的条件下进行两变量间的相关分析,这种排除其他变量影响下的两变量间的相关分析,称为偏相关分析。在其他变量都保持一定时,表示指定的两个变量之间相关密切程度和方向的指标称为偏相关系数(partial correlation coefficient),它与偏回归系数的意义相似,正负也一致,其值介于-1~~1之间。如果在固定z1,z2,…,zn,后,计算y与x的偏相关系数,称为总体偏相关系数。根据固定变量的个数,可将其分为固定1个变量后计算的一级偏相关系数,固定两个变量后的二级偏相关系数。简单相关系数可视作一种特殊的偏相关系数,由于没有控制变量,故称零级偏相关系数。
偏相关分析的原始变量应来自多元正态分布的总体。若某些变量不服从正态分布,可通过变量变换使其正态化。变量中无自变量和因变量之分,可根据研究需要计算任两个变量的偏相关系数。
一、案例介绍
某高血压研究所收集了110例高血压患者的临床资料,包括年龄、BMI、同型半胱氨酸(Hcy)、胆固醇、尿酸(UA)和24小时收缩压标准差(24hSSD)和24小时收缩压变异系数(24hSCV)等,研究Hcy与24hSSD或24hSCV的相关性。经过前期分析发现,Hcy、UA和24hSSD有相关性,现欲了解控制UA的影响后,Hcy与24hSSD的相关性。部分数据见图1,本案例数据可从“附件下载”处下载。
二、案例分析
本案例的分析目的是考察控制某因素的影响后,两个连续性变量之间的相关性,可以使用Pearson偏相关性分析。本案例的分析目的是考察控制某因素的影响后,两个连续性变量之间的相关性,可以使用Pearson偏相关性分析。但需要满足以下6个条件:
条件1:两个变量均为连续变量。本研究中Hcy与24hSSD均为连续性变量,该条件满足。
条件2:样本独立性。样本来自总体的随机样本,且被试者之间必须相互独立,该条件满足。
条件3:两个变量及需要控制的变量应当是配对的,即来源于同一个体的特征或属性。本案例中同时检测了研究对象的同型半胱氨酸、尿酸和24小时收缩压标准差,变量之间是对应关系,该条件满足。
条件4:两个变量服从双变量(多元)正态(或近似正态)分布,该条件需要通过软件分析后判断。
条件5:两个连续变量之间存在线性关系,该条件需要通过软件分析后判断。
条件6:两个变量都不存在明显的异常值,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件4判断(正态性检验)
Pearson偏相关分析要求变量呈双变量正态分布,而并非简单的要求两个自变量各自服从正态分布。有实验模拟显示,采用Shapiro-Wilk检验同时考察双变量正态分布和两变量分别的正态分布,在重复1万次服从两变量正态分布的实验中若以P=0.1为界值时,约有11%的实验不服从双变量正态分布;若以P=0.05为界值时,约有6%的实验不服从双变量正态分布。由于该条件比较宽松,因此可以考察两个自变量各自的正态分布情况代替分析双变量正态分布。
(1) 软件操作
操作略,可参考正态性检验——MedCalc软件实现。
(2) 结果解读
由正态性检验结果可知24hSSD(图2)和Hcy(图3)两个变量均呈正态分布(均P>0.1)。
2. 条件5判断(线性关系检测)
(1) 软件操作
通过绘制24hSSD和Hcy之间的散点图判断两者之间的线性关系。操作略,可参考Pearson相关性分析(Pearson Correlation Analysis)——MedCalc软件实现。
(2) 结果解读
由散点图(图4)可知,24hSSD与Hcy之间呈现明显的线性趋势。
3. 条件6判断(异常值判断)
(1) 软件操作
操作略,可参考异常值检测——MedCalc软件实现。
(2) 结果解读
由异常值检测结果(图5、图6)可知,24hSSD的案例46可能存在异常,数值为16.1mmHg。依据专业可判断24hSSD可能存在16.1mmHg,因此对此不予处理。Hcy不存在异常值。
(二) 偏相关分析
1. 软件操作
选择“统计”—“相关”—“偏相关”(图7)
在“偏相关”对话框,按图8设置相应参数:
- 变量Y:选择24hSSD
- 变量X:选择Hcy
- 协变量:选择可能影响变量x和y的关系的变量,不选择协变量时,将计算x和y的零级偏相关系数;选择1个协变量时,将计算一级偏相关系数;选择两个协变量时,将计算二级偏相关系数,以此类推。本例选择UA。
- 筛选条件:不选择任何变量
- 选项:可选择“对数变换Y”和“对数变换X”,本例不做任何选择。
2. 结果解读
相关性分析结果(图9)显示,在扣除了UA的影响后,24hSSD与Hcy之间的偏相关系数为0.3704,有统计学意义(P=0.0001)。如果直接分析24hSSD与Hcy之间的相关系数为0.4266 (读者可自行分析),可见UA的存在夸大了两者之间的关联。
四、结论
高血压患者在不控制UA时,Hcy和24hSSD之间的相关系数r =0.4266,P<0.001;控制尿酸时,Hcy和24hSSD之间的偏相关系数r =0.3704,P<0.001。综上,高血压患者Hcy和24hSSD呈正相关。