偏相关分析(Partial Correlations Analysis)——理论介绍

发布于 2022年1月3日 星期一 22:52:31 浏览:25071
原创不易,转载请注明来源,感谢!
附件下载:
偏相关分析.csv 请勿重复点击,如无响应请耐心等待或稍后再试。

相关分析用于分析两个变量之间的相关关系。在现实生活中,两个变量之间的相关关系往往会受到第三个变量的影响,从而使得相关系数不能真实地反映两变量之间的线性相关程度。
偏相关分析(Partial Correlations Analysis)也称净相关分析,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析将要探索的两变量间相关程度的过程。当控制变量个数为1时,偏相关阶数为1;当控制变量个数为2时,偏相关阶数为2。偏相关分析包括Pearson偏相关性分析、Spearman偏相关性分析和Kendall's tau-b偏相关性分析。本文以Pearson偏相关性分析为例讲解偏相关性分析的适用条件及假设检验。

关键词:偏相关分析; 偏相关系数

一、统计量计算

(一) 偏相关系数r

在分析两个变量XY间的相关时,当控制了变量Z的线性影响后,XY之间的偏相关系数定义为:

\(r=\frac{r_{X Y}-r_{X Y} r_{X Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}}\)

其中,
rXY是指X和Y的相关系数;
rXZ是指X和Z的相关系数;
rYZ是指Y和Z的相关系数。

(二) 假设检验

对样本来自的两总体间是否存在显著的偏相关关系进行检验判断,其基本步骤是:

1. 建立检验假设,确定检验水准

H0:两总体的偏相关系数为0

H1:两总体的偏相关系数不为0

α = 0.05

2. 计算检验统计量t

\(t=r \sqrt{\frac{n-q-2}{1-r^{2}}}\)

其中,r为偏相关系数,n为样本量,q为偏相关阶数。统计量t服从自由度为n-q-2的t分布。

3. 确定P值,作出推断结论

按自由度为ν=n-q-2,查(t界值表),获得 P 值。

二、案例数据

某高血压研究所收集了110例高血压患者的临床资料,包括年龄、BMI、同型半胱氨酸(Hcy)、胆固醇、尿酸(UA)和24小时收缩压标准差(24hSSD)和24小时收缩压变系数(24hSCV)等,研究Hcy与24hSSD或24hSCV的相关性。经过前期分析发现,Hcy、UA和24hSSD有相关性,现欲了解扣除UA的影响后,Hcy与24hSSD的相关性,部分数据如图1所示。

图1

三、案例分析过程

本文Hcy和24hSSD均属于计量资料,可考虑使用Pearson偏相关性分析,但前提是两变量均满足正态分布条件(本例中Hcy和24hSSD均服从正态分布,请读者自行操作)。

(一) 计算样本相关系数r

\(r=\frac{r_{X Y}-r_{X Z} r_{Y Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}}\)

Hcy与24hSSD 的Pearson简单相关系数rXY=0.501;

Hcy与UA的Pearson简单相关系数rXZ=0.440;

24hSSD与UA的Pearson简单相关系数rYZ=0.341;

控制UA的影响后,Hcy与24hSSD的偏相关系数为:

\(r=\frac{r_{X Y}-r_{X Z} r_{Y Z}}{\sqrt{\left(1-r_{XZ}^{2}\right)\left(1-r_{YZ}^{2}\right)}}=\frac{0.501-0.440 *0.341}{\sqrt{\left(1-0.440^{2}\right)*\left(1-0.341^{2}\right)}}=0.416\)

(二) 假设检验

1. 建立检验假设,确定检验水准

H0:控制UA的影响后,Hcy与24hSSD不存在相关性

H1:控制UA的影响后,Hcy与24hSSD存在相关性

2. 计算检验统计量t

\(t=r \sqrt{\frac{n-q-2}{1-r^{2}}}=0.416 *\sqrt{\frac{110-1-2}{1-0.416^{2}}}=4.729\)

自由度为ν=n-q-2=110-1-2=107

3. 确定P值,作出推断结论

按自由度ν=107,查(t界值表),可得P<0.001。按α = 0.05水准,拒绝H0,接受H1,即控制UA的影响后,Hcy与24hSSD显著正相关。

(三) 结论

控制UA的影响后,Hcy与24hSSD呈正相关,r=0.416,P<0.001。



End
文章目录 沉浸式阅读