关键词:SAS; 相关分析; Pearson相关分析; 连续变量相关分析; Pearson相关系数
一、案例介绍
某研究者研究健康成年人的体重和双肾脏总体积(ml)的关系,测得24名健康成年人的体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾体积是否有关。部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是探索两个连续变量之间的相关性,可以使用Pearson相关分析。但需要满足5个条件:
条件1:两个变量均为连续变量。本研究中的成人体重和双肾总体积均为连续变量,该条件满足。
条件2:两个连续变量应当是配对的,即来源于同一个个体。本研究中同时检测了研究对象的体重和双肾总体积,变量之间是对应关系,该条件满足。
条件3:两个连续变量之间存在线性关系,该条件需要通过软件分析后判断。
条件4:两个变量都不存在明显的异常值,该条件需要通过软件分析后判断。
条件5:两个变量服从正态(或近似正态)分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 导入数据
①利用LIBNAME语句建立SAS逻辑库关联,注意逻辑库名称要求,即最大长度8字符,必须以字母或下划线“_”开始,可以是字母、数字和下划线的任意组合。具体代码如下:
libname mydata 'D:\mydata';
通过这一步骤,SAS能够识别引号中的物理位置,将逻辑库建立在该目录下,同时在以下过程中新建的SAS表格便可以永久储存在该位置,便于反复读取和使用。先运行该代码使其生效。
②利用PROC IMPORT语句导入文件,代码如下:
proc import out= mydata.example datafile=" D:\mydata\Pearson相关性分析.csv " dbms=csv replace; getnames=yes; run;
该过程在mydata逻辑库中生成example数据集,数据文件由DATAFILE=选项指定,DBMS=选项指定其数据库类型。该案例中初始数据集为csv文件,故而使用“dbms=csv”指定。如果已经存在相同名称的SAS数据集,即可使用REPLACE选项进行覆盖。GERNAMES=YES选项指定从第2行开始读取数据,将数据集的首行变量名作为SAS数据集的变量名。
(二) 适用条件判断
1. 条件3判断(线性关系分析)
(1) 软件操作
运用SGSCATTER过程作散点图,具体代码如下所示:
proc sgscatter data=mydata.example; plot volume * wt; run;
其中PLOT语句指定“volume”为Y轴,“wt”为X轴。
(2) 结果解读
图2为体重和双肾总体积的散点图,散点大致呈一条直线,说明存在线性关系。该条件满足。
2. 条件4判断(异常值判断)
(1) 软件操作
运用UNIVARIATE语句进行检验,具体代码如下所示:
proc univariate data=mydata.example normal plot; var wt volume; run;
PLOT选项可作各变量的平行条状图,箱线图和正态概率图。
(2) 结果解读
图3和图5分别为“wt”和“volume”两变量的结果。在表格中列出了观察变量的最小值和最大值,依据专业可判断体重可能存在38 kg和85 kg的情况,双肾总体积可能存在213 ml和348 ml;此外,图4和图6中的箱线图也未提示任何异常值。综上,本案例未发现需要删除的异常值,满足条件4。
3. 条件5判断(正态性判断)
(1) 软件操作
正态性检验的操作在异常值判断过程中已完成,NORMAL选项输出正态性检验结果。
(2) 结果解读
图7和图8分别为“wt”和“volume”的正态性检验结果。表中显示了四种正态性检验的结果,其中较常用的为Shapiro-Wilk (夏皮罗-威尔克正态性,S-W)检验和Kolmogorov-Smirnov (柯尔莫哥洛夫-斯米诺夫,K-S)检验。K-S检验适用于大样本资料,本案查看S-W检验结果,可见P值分别为0.3370和0.3116,均>0.1,提示两变量均服从正态分布。图4和图6分别列出了两个变量的Q-Q图,可见散点基本围绕对角线分布,也提示两个变量服从正态分布。综上,本案例满足条件5。
关于正态性检验的注意事项详见推文(医学统计学核心概念及重要假设检验的软件实现(2/4)——正态性假设检验的SPSS实现)。
(三) 统计描述及推断
1. 软件操作
运用CORR语句进行检验,具体代码如下所示:
proc corr data=mydata.example; var volume; with wt; run;
2. 结果解读
(1) 统计描述
从UNIVARIATE过程所得的表格可知,健康成年人的体重为59.83±14.39 kg (图3),双肾总体积269.78±39.29 ml (图5)。
(2) 统计学推断
图15的“Pearson Correlation Coefficients (Pearson相关系数)”表格结果显示,两组Pearson相关系数r =0.94665,P<0.0001。可知本研究样本人群的双肾总体积与体重之间存在较强线性相关性。
四、结论
本研究采用Pearson相关分析判断健康成人的双肾总体积与体重是否有关。通过绘制散点图显示两变量之间存在正向线性关系;通过箱线图及专业知识判断,数据不存在需要处理的异常值;通过Q-Q图和Shapiro-Wilk检验,提示两个变量均服从正态分布。
描述性分析结果显示,健康成年人的体重为59.83±14.39 kg,双肾总体积为269.78±39.29 ml。Pearson相关分析显示,健康成人的双肾总体积与体重之间的Pearson相关系数r =0.94665 ,P<0.0001。综上,可知本研究样本人群的双肾总体积与体重之间存在较强正向线性相关。
五、分析小技巧
(一) 线性关系
- 要确定是否存在线性关系,研究者需要查看两个变量的散点图,如果散点图大致呈一条直线,说明有线性关系,如果不是一条直线则没有线性关系。常见散点图提示的相关类型如图10所示。
(二) 异常值处理
- 如果发现存在异常值,首先要考虑数据是否存在录入错误。如果存在,应修改为正确值。错误数值修订后,需要重新再做散点图,因为修订数值后,可能仍是异常值或者其他的观测值成为了异常值。如果不是录入错误,可以考虑是否为测量误差,如果存在,通常需剔除这些观测值,或将异常值替换为测量范围的上限值(研究者确认异常值超出仪器测量范围并且知道测量错误的方向)。如果异常值不是由于录入或者测量错误导致,这些异常值可能代表了真实的数据情况,尽管这些数据并不符合统计预期,但也没有理由删除,对这种情况的处理方法目前还没有统一标准。研究者可以根据实际情况选择合适的方法,也可以咨询相关专业人员。
(三) 相关系数
- Pearson相关系数r,是表示两个随机变量之间线性相关程度和方向的统计量,即r>0,为正相关;r=0为零相关。R的绝对值大小则表示两变量之间线性相关的密切程度,/r/越接近1,说明关联程度高,/r/越接近于0,说明关联程度越低。当0.9</r/<1,为高度相关;当0.7</r/<0.9,为强相关;0.4</r/<0.7,为中度相关;0.2</r/<0.4,为弱相关性;0</r/<0.2,为极弱相关或无相关性。
- 关于相关系数强弱的判断标准,对于不同专业存在稍微的差异,使用时需要结合专业背景综合决定。此外,Pearson相关系数多用于进行多重线性回归分析前的探索性分析,此时对于相关系数r的判断分级并不是很重要