关键词:偏相关分析; 偏相关系数
一、统计量计算
(一) 偏相关系数r
在分析两个变量X和Y间的相关时,当控制了变量Z的线性影响后,X和Y之间的偏相关系数定义为:
\(r=\frac{r_{X Y}-r_{X Y} r_{X Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}}\)
其中,
rXY是指X和Y的相关系数;
rXZ是指X和Z的相关系数;
rYZ是指Y和Z的相关系数。
(二) 假设检验
对样本来自的两总体间是否存在显著的偏相关关系进行检验判断,其基本步骤是:
1. 建立检验假设,确定检验水准
H0:两总体的偏相关系数为0
H1:两总体的偏相关系数不为0
α = 0.05
2. 计算检验统计量t
\(t=r \sqrt{\frac{n-q-2}{1-r^{2}}}\)
其中,r为偏相关系数,n为样本量,q为偏相关阶数。统计量t服从自由度为n-q-2的t分布。
3. 确定P值,作出推断结论
按自由度为ν=n-q-2,查(t界值表),获得 P 值。
二、案例数据
某高血压研究所收集了110例高血压患者的临床资料,包括年龄、BMI、同型半胱氨酸(Hcy)、胆固醇、尿酸(UA)和24小时收缩压标准差(24hSSD)和24小时收缩压变系数(24hSCV)等,研究Hcy与24hSSD或24hSCV的相关性。经过前期分析发现,Hcy、UA和24hSSD有相关性,现欲了解扣除UA的影响后,Hcy与24hSSD的相关性,部分数据如图1所示。
三、案例分析过程
本文Hcy和24hSSD均属于计量资料,可考虑使用Pearson偏相关性分析,但前提是两变量均满足正态分布条件(本例中Hcy和24hSSD均服从正态分布,请读者自行操作)。
(一) 计算样本相关系数r
\(r=\frac{r_{X Y}-r_{X Z} r_{Y Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}}\)Hcy与24hSSD 的Pearson简单相关系数rXY=0.501;
Hcy与UA的Pearson简单相关系数rXZ=0.440;
24hSSD与UA的Pearson简单相关系数rYZ=0.341;
控制UA的影响后,Hcy与24hSSD的偏相关系数为:
\(r=\frac{r_{X Y}-r_{X Z} r_{Y Z}}{\sqrt{\left(1-r_{XZ}^{2}\right)\left(1-r_{YZ}^{2}\right)}}=\frac{0.501-0.440 *0.341}{\sqrt{\left(1-0.440^{2}\right)*\left(1-0.341^{2}\right)}}=0.416\)
(二) 假设检验
1. 建立检验假设,确定检验水准
H0:控制UA的影响后,Hcy与24hSSD不存在相关性
H1:控制UA的影响后,Hcy与24hSSD存在相关性
2. 计算检验统计量t
\(t=r \sqrt{\frac{n-q-2}{1-r^{2}}}=0.416 *\sqrt{\frac{110-1-2}{1-0.416^{2}}}=4.729\)
自由度为ν=n-q-2=110-1-2=107
3. 确定P值,作出推断结论
按自由度ν=107,查(t界值表),可得P<0.001。按α = 0.05水准,拒绝H0,接受H1,即控制UA的影响后,Hcy与24hSSD显著正相关。
(三) 结论
控制UA的影响后,Hcy与24hSSD呈正相关,r=0.416,P<0.001。