关键词:SAS; 相关分析; Kendall相关分析; 肯德尔相关分析; Kendall相关系数; 肯德尔相关系数; 等级相关分析
一、案例介绍
某社区卫生服务中心欲研究年龄(Age)与冠状动脉粥样硬化等级(Grade)之间的关系,抽样调查了283例年龄≥30岁的居民,收集其年龄和冠状动脉粥样硬化等级数据。年龄按30-39岁、40-49岁、50-59岁、≥60岁统计频数,冠状动脉粥样硬化按照0级、1级、2级、3级统计频数。问冠状动脉粥样硬化等级与年龄是否相关?部分数据如图1所示。本文案例可从“附件下载”处下载。其中,Age表示年龄(1=“30-39岁”,2=“40-49岁”,3=“50-59岁”,4=“≥60岁”),Grade表示冠状动脉粥样硬化等级(1=“0级”,2=“1级”,3=“2级”,4=“3级”)。
二、问题分析
本案例的分析目的是检验冠状动脉粥样硬化等级与年龄是否相关,即探究年龄与冠状动脉粥样硬化等级的相关性,两个变量均为有序多分类变量(等级变量),可以采用Kendall's Tau-b相关性分析。但需要满足2个条件:
条件1:变量类型为,①两个定量变量,②两个有序多分类变量(等级变量),③一个有序多分类变量和一个定量变量。本案例数据的两个变量均为有序多分类资料,该条件满足。
条件2:两个变量是同一组研究对象的两个属性。本案例的两个变量(年龄和冠状动脉粥样硬化等级)是同一组研究对象的两个属性(特征),该条件满足。
三、软件操作及结果解读
(一) 统计描述及推断
1. SAS实现
首先读入数据:
proc import datafile="G:\kendall's Tau-b相关性分析.csv" dbms=csv out=data1; run;
使用如下的代码计算年龄和冠状动脉粥样硬化等级的构成比:
proc freq data=data1; tables Age*Grade; run;
使用如下代码计算年龄和冠状动脉粥样硬化等级之间的Kendall's Tau-b相关系数:
proc corr data=data1 kendall; var Age Grade; run;
其中,proc corr过程步中的kendall指定进行Kendall's Tau-b相关分析。
2. 结果解读
(1) 统计描述
如图2所示,年龄30-39岁的参与者共100人,其中冠状动脉粥样硬化等级0级70人(70.00%)、1级23人(23.00%)、2级4人(4.00%)、3级3人(3.00%);年龄40-49岁的参与者共65人,其中冠状动脉粥样硬化等级0级27人(41.54%)、1级25人(38.46%)、2级9人(13.85%)、3级4人(6.15%);年龄50-59岁的参与者共60人,其中冠状动脉粥样硬化等级0级16人(26.67%)、1级23人(38.33%)、2级13人(21.67%)、3级8人(13.33%);年龄≥60岁的参与者共58人,其中冠状动脉粥样硬化等级0级9人(15.52%)、1级20人(34.48%)、2级15人(25.86%)、3级14人(24.14%)。可以看到随着年龄的增加,冠状动脉粥样硬化等级为2级和3级的占比逐渐升高,冠状动脉粥样硬化等级为0级的占比逐渐降低。
冠状动脉粥样硬化等级0级的参与者共122人,其中年龄30-39岁70人(57.38%)、40-49岁27人(22.13%)、50-59岁16人(13.11%)、≥60岁9人(7.38%);冠状动脉粥样硬化等级1级的参与者共91人,其中年龄30-39岁23人(25.27%)、40-49岁25人(27.47%)、50-59岁23人(25.27%)、≥60岁20人(21.98%);冠状动脉粥样硬化等级2级的参与者共41人,其中年龄30-39岁人(9.76%)、40-49岁人(21.95%)、50-59岁人(31.71%)、≥60岁人(36.59%);冠状动脉粥样硬化等级3级的参与者共29人,其中年龄30-39岁3人(10.34%)、40-49岁4人(13.79%)、50-59岁8人(27.59%)、≥60岁14人(48.28%)。可以看到,随着冠状动脉粥样硬化等级的增大,年龄≥60岁的参与者占比逐渐升高。
(2) 统计推断
如图3所示,年龄与冠状动脉粥样硬化等级间的Kendall's Tau-b相关系数为0.410,P<0.001,即年龄与冠状动脉粥样硬化的等级有相关性,且为正相关;参考Pearson相关系数的强弱判断,年龄与冠状动脉粥样硬化的程度为中度相关。
四、结论
本研究采用Kendall's Tau-b相关性分析检验年龄与冠状动脉粥样硬化等级的相关性,两变量均为有序分类资料,且均为一组研究对象的两个属性,满足Kendall's Tau-b相关性分析的条件。
Kendall's Tau-b相关性分析结果表明,年龄与冠状动脉粥样硬化等级呈正相关,相关系数为0.410 ,P<0.001。表明,年龄越大,发生冠状动脉粥样硬化的等级越高。相关程度为中等。
五、分析小技巧
- 两个连续变量间呈线性相关时,可以使用Pearson相关分析,不满足Pearson相关分析的适用条件时,可以使用Spearman相关系数来描述。
- 两个连续变量既可以使用Pearson相关分析,也可以使用Kendall's tau-b等级相关系数描述,但后者更多适用于两个分类变量均为有序分类的情况(也可以用于有序分类变量+连续变量)。