Pearson偏相关性分析(Pearson Partial Correlation Analysis)——Stata软件实现

发布于 2022年3月17日 星期四 15:31:27 浏览:4625
原创不易,转载请注明来源,感谢!
附件下载:
偏相关分析.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了偏相关分析(Partial Correlation Analysis)的假设检验理论,本篇文章将实例演示在Stata软件中实现Pearson偏相关分析(Pearson Partial Correlation Analysis)的操作步骤。

关键词:Stata; 偏相关分析; 偏相关系数

一、案例介绍

某高血压研究所收集了110例高血压患者的临床资料,包括年龄、BMI、同型半胱氨酸(Hcy)、胆固醇、尿酸(UA)和24小时收缩压标准差(24hSSD)和24小时收缩压变系数(24hSCV)等,研究Hcy与24hSSD或24hSCV的相关性。经过前期的分析发现,Hcy、UA和24hSSD有相关性,现欲了解扣除UA的影响后,Hcy与24hSSD的相关性。部分数据见图1。其中,变量“ua”代表尿酸,变量“hcy”代表同型半胱氨酸,变量“ssd”代表24小时收缩压标准差。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是考察控制某因素的影响后,两个连续性变量之间的相关性,可以使用Pearson偏相关性分析。但需要满足以下6个条件:

条件1:两个变量均为连续变量。本研究中Hcy与24hSSD均为连续性变量,该条件满足。

条件2:样本独立性。样本来自总体的随机样本,且被试者之间必须相互独立,该条件满足。

条件3:两个变量及需要控制的变量应当是配对的,即来源于同一个体的特征或属性。本案例中同时检测了研究对象的同型半胱氨酸、尿酸和24小时收缩压标准差,变量之间是对应关系,该条件满足。

条件4:两个变量服从正态(或近似正态)分布,该条件需要通过软件分析后判断。

条件5:两个连续变量之间存在线性关系,该条件需要通过软件分析后判断。

条件6:两个变量都不存在明显的异常值,该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断(异常值判断)

1. 条件4判断(正态性检验)

(1) 软件操作

swilk hcy ssd

图2
(2) 结果解读

图2显示了Shapiro-Wilk正态性检验的结果,可见hcy和ssd两个变量的P值分别为0.556和0.879,均>0.1,提示两变量均服从正态分布。另外,还可分别绘制两个变量的正态分位图检验正态性,也提示两个变量服从正态分布,请读者自行操作。综上,本案例满足条件4。

2. 条件5判断(线性关系分析)

(1) 软件操作

绘制变量hcy和ssd的散点图(图3)。

scatter hcy ssd

图3
(2) 结果解读

图3为同型半胱氨酸和24小时收缩压标准差的散点图,散点大致呈一条直线,说明存在线性关系。满足条件5。

3. 条件6判断(异常值判断)

(1) 软件操作

①计算描述统计量,结果如图4所示。

tabstat ua hcy ssd, stat(count mean median sd min max) col(stat) long

图4

②绘制箱线图,如图5-1、图5-2所示。

graph box hcy

图5-1

graph box ssd

图5-2
(2) 结果解读

图4结果中,列出了观察变量的最小值和最大值,依据专业可判断同型半胱氨酸可能存在4.9 μmol/L和21.8 μmol/L,24小时收缩压标准差可能存在6.6 mmHg和16.1 mmHg的情况;此外,图5-1和图5-2两个箱线图虽然提示存在一个异常值,但考虑到最大值和最小值都有可能发生,所以不需要对异常值进行处理。综上,本案例未发现需要处理的异常值,满足条件6。

(二) 统计描述及推断

1. 软件操作

(1)偏相关分析

pcorr hcy ssd ua

结果如图6所示。

图6
(2)相关性分析

pwcorr hcy ssd ua, sig

结果如图7所示。

图7

2. 结果解读

(1) 统计描述

根据图4描述性统计分析结果可知,高血压患者的同型半胱氨酸水平为12.65±3.65 μmol/L,24小时收缩压标准差为10.84±1.90 mmHg,尿酸为373.50±94.16 μmol/L。

(2) 统计学推断

图7的相关性分析结果显示,当不控制尿酸“ua”时,“hcy”和“ssd”之间的相关系数r =0.427,P<0.001,即同型半胱氨酸和24小时收缩压标准差相关性中等,且有统计学意义。图6的偏相关分析结果显示,当控制尿酸“ua”时,“hcy”和“ssd”之间的偏相关系数r =0.370,P<0.001,表明同型半胱氨酸和24小时收缩压标准差相关性水平稍有降低,但仍有统计学意义。

四、结论

本研究采用偏相关分析判断在控制高血压患者的尿酸水平时,患者同型半胱氨酸水平和24小时收缩压标准差是否有关。已知两个变量均为连续变量,样本独立,且两个变量及需要控制的变量分别来自同一个体;通过正态性检验发现两个变量服从正态分布;通过箱线图及专业知识判断,数据不存在需要处理的异常值;通过散点图发现,两个变量之间存在线性关系。

描述性分析结果显示,高血压患者的同型半胱氨酸水平为12.65±3.65 μmol/L,24小时收缩压标准差为10.84±1.90 mmHg,尿酸为373.50±94.16 μmol/L。相关性分析结果显示,高血压患者在不控制尿酸时,同型半胱氨酸和24小时收缩压标准差之间的相关系数r =0.427,P<0.001;偏相关分析结果显示,高血压患者在控制尿酸时,同型半胱氨酸和24小时收缩压标准差之间的偏相关系数r =0.370,P<0.001。综上,高血压患者同型半胱氨酸和24小时收缩压标准差呈正相关。

五、分析小技巧

(一) 异常值处理

如果发现存在异常值,首先要考虑数据是否存在录入错误。如果存在,应修改为正确值。错误数值修订后,需要重新再做散点图,因为修订数值后,可能仍是异常值或者其他的观测值成为了异常值。如果不是录入错误,可以考虑是否为测量误差,如果存在,通常需剔除这些观测值,或将异常值替换为测量范围的上限值(研究者确认异常值超出仪器测量范围并且知道测量错误的方向)。如果异常值不是由于录入或者测量错误导致,这些异常值可能代表了真实的数据情况,尽管这些数据并不符合统计预期,但也没有理由删除,对这种情况的处理方法目前还没有统一标准。研究者可以根据实际情况选择合适的方法,也可以咨询相关专业人员。

(二) 偏相关分析

偏相关分析也称净相关分析,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析要探索的两变量间的相关程度的过程。当控制变量个数为1时,偏相关阶数为1;当控制变量个数为2时,偏相关阶数为2。偏相关分析包括Pearson偏相关性分析(适用于正态分布的计量资料)、Spearman偏相关性分析(适用于非正态分布的计量资料或总体分布未知的变量)和Kendall's tau-b偏相关性分析(适用于等级资料)。

(三) 偏相关系数

偏相关系数和简单相关系数的区别在于前者进行了变量控制;共同点在于两者都是表示两个随机变量之间线性相关程度和方向的统计量。r>0,为正相关;r<0,为负相关。r的绝对值大小表示两变量之间线性相关的密切程度。一般当0.9</r/<1,为高度相关;当0.7</r/<0.9,为强相关;0.4</r/<0.7,为中度相关;0.2</r/<0.4,为弱相关性;0</r/<0.2,为极弱相关或无相关性。但相关系数强弱的判断标准,对于不同专业存在差异,使用时需要结合专业背景综合决定。

End
文章目录 沉浸式阅读