关键词:SAS; 重复测量; 重复测量资料; 重复测量方差分析; 单因素重复测量方差分析; 球形检验; 交互作用; 主效应; 单独效应
一、案例介绍
检验科研究血样放置时间对某生化指标浓度检测的影响,采集了10份人体血液标本,分别在放置0分钟(T0)、30分钟(T30)、60分钟(T60)和90分钟(T90)时对该指标的浓度(mmol/L)进行检测,分析放置时间是否对该生化指标检测结果有影响?数据见图1。本文案例可从“附件下载”处下载。
其中,ID表示受试者编号,T0表示放置0分钟后指标的浓度,T30表示放置30分钟后指标的浓度,T60表示放置60分钟后指标的浓度,T90表示放置90分钟后指标的浓度。
二、问题分析
本案例的分析目的是比较4个时间点的生化指标浓度是否有差异。由于4个时间点的数据属于重复测量数据,可以使用单因素重复测量方差分析(One-Way Repeated Measures ANOVA)。但需要满足4个条件:
条件1:观察变量唯一,且为连续变量。本研究中观察变量为生化指标浓度,且为连续变量,该条件满足。
条件2:观察变量为重复测量数据,即不满足独立性。本研究中4个时间点测量的生化指标浓度均是针对同一批样本,因此不满足独立性,该条件满足。
条件3:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件4:各水平(时间点)观察变量为正态(或近似正态)分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(异常值判断)
(1) SAS实现
首先导入数据,代码如下:
proc import datafile="G:\test\单因素重复测量方差分析—SAS软件实现\单因素重复测量方差分析.csv" dbms=csv out=data1; run;
使用如下的proc univariate过程步,可以获得T0、T30、T60、T90变量的描述性统计量(均值、标准差、最大最小值等)、绘制箱线图等结果。
proc univariate data=data1 plot; var T0 T30 T60 T90; run;
(2) 结果解读
图2和图3分别展示了放置0分钟(T0)指标浓度的百分位数、直方分布图和箱线图,最大值和最小值分别是6.270和5.320 mmol/L,首先从专业角度可判断是在正常值范围内;其次,观察箱线图,也可以发现并无异常点出现,因此T0无异常。
图4和图5分别展示了放置30分钟(T30)指标浓度的百分位数、直方分布图和箱线图,最大值和最小值分别是6.270和5.150 mmol/L,也未发现异常点出现,因此T30无异常。
图6和图7分别展示了放置60分钟(T60)指标浓度的百分位数、直方分布图和箱线图,最大值和最小值分别是5.660和4.930 mmol/L,未发现异常点出现,因此T60无异常。
图8和图9分别展示了放置90分钟(T90)指标浓度的百分位数、直方分布图和箱线图,最大值和最小值分别是5.260和4.480 mmol/L,未发现异常点出现,因此T90无异常。
综上,T0、T30、T60、T90均无异常值,满足条件3。
2. 条件4判断(正态性检验)
(1) SAS实现
proc univariate data=data1 plot normal; var T0 T30 T60 T90; run;
其中,normal选项表示对变量做正态性分析。
(2) 结果解读
图10、图11、图12和图13分别列出了T0、T30、T60、T90的正态性检验结果。Shapiro-Wilk正态性检验的P值分别为0.3269、0.3229、0.6325、0.9724,均>0.05,服从正态分布。因此,满足条件4。
(二) 球形假设检验
1. SAS实现
proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4)/printe; run;
其中,printe选项表示输出球对称性检验结果;
nouni表示不对T0、T30、T60、T90做单变量方差分析;
repeated指示重复测量因素为time变量,共4个水平。
2. 结果解读
如图14所示,统计量χ2=10.636,P=0.0591,表示满足球形假设。因此,本案例可以直接采用非校正方法分析的结果。
(三) 统计描述
1. SAS实现
proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4)/mean; run;
其中,mean选项表示输出变量的均值和标准差信息。
2. 结果解读
图15展示了 T0、T30、T60、T90的均值和标准差。放置0分钟(T0)、30分钟(T30)、60分钟(T60)、90分钟(T90)指标浓度的均值分别为:5.656±0.312、5.548±0.339L、5.269±0.233、4.868±0.226 mmol/L。可见,随着放置时间的延长,指标的浓度值呈现降低的趋势。但是否具有统计学意义,还需要经过统计学推断来检验。
(四) 统计学推断
1. SAS实现
proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4); run;
其中,nouni表示不对T0、T30、T60、T90做单变量方差分析;
repeated指示重复测量因素为time变量,共4个水平。
2. 结果解读
由于本案例满足球形假设,因此以非校正分析结果为判断标准。如图16所示,统计量F=116.10,P<0.0001,认为不同时间点的指标浓度值有差异。
(五) 事后检验(两两比较)
上面分析得出了“不同时间点生化指标浓度差异有统计学意义”的结论,但是具体哪些组别之间存在差异尚不清楚,因此需要进行事后检验,开展两两比较。
1. SAS实现
proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4) contrast(1)/summary; run; proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4) contrast(2)/summary; run; proc glm data=data1; model T0 T30 T60 T90 = /nouni; repeated time 4(1 2 3 4) contrast(3)/summary; run;
其中, contrast(1) /summary表示以T0为参照,输出T30、T60、T90和T0两两比较的结果;contrast(2) /summary表示以T30为参照,输出T0、T60、T90和T30两两比较的结果;contrast(3) /summary表示以T60为参照,输出T0、T30、T90和T60两两比较的结果。
2. 结果解读
以T0为参照, T30、T60、T90和T0两两比较的结果如图17所示,P值分别为0.0082、<0.0001、<0.0001,均<0.05,差异有统计学意义,表明放置30分钟、60分钟、90分钟后,指标浓度发生了显著变化。
以T30为参照, T0、T60、T90和T0两两比较的结果如图18所示,P值分别为0.0082、0.0007、<0.0001,均<0.05,差异有统计学意义,表明放置30分钟与放置0分钟、放置60分钟、放置90分钟的指标浓度差异有统计学意义。
以T60为参照, T0、T30、T90和T60两两比较的结果如图19所示,P值分别为<0.0001、0.0007、<0.0001,均<0.05,差异有统计学意义,表明放置60分钟与放置0分钟、放置30分钟、放置90分钟的指标浓度差异有统计学意义。
综上,事后检验结果表明,放置0分钟、30分钟、60分钟、90分钟的指标浓度两两比较差异均有统计学意义。
结合放置0分钟、30分钟、60分钟、90分钟后的指标浓度值,可以得出结论:随着放置时间的延长,指标浓度逐渐降低。
四、结论
本研究采用单因素重复测量方差分析判断4个时间点的生化指标浓度是否有差异。通过专业知识判断,数据不存在异常值;通过Shapiro-Wilk检验,提示各组数据服从正态分布;球形度检验提示满足球形假设(χ2=10.636,P=0.0591),使用未校正法进行统计学推断。
T0、T30、T60、T90时间点的生化指标浓度均值分别为5.656±0.312、5.548±0.339、5.269±0.233、4.868±0.226 mmol/L。单因素重复测量方差分析结果提示,不同时间点生化指标浓度差异有统计学意义(F=116.10,P<0.0001)。事后检验结果表明,T0、T30、T60、T90时间点的生化指标浓度,两两差异均有统计学意义。综上可知,放置时间对该生化指标检测结果有影响,随着放置时间的延长,指标浓度呈下降的趋势。
五、知识小贴士
- 重复测量设计常见于同一组研究对象多次、多个部位或多个维度测量数据间的比较,包括时间重复测量、部位重复测量和维度重复测量。时间重复测量如,同一组患者用药前、用药后多个时间点某指标的比较;部位重复测量如,相同研究对象,身体多个部位某指标(如皮质厚度)的比较;维度重复测量如,使用某量表测量同一批研究对象不同生理或心理状态,其不同状态维度之间的比较(如生活质量SF-36各个维度之间的比较)。
六、分析小技巧
(一) 球形度检验
- 重复测量数据的方差分析过程中,需要先考察数据的球形分布特征,当违背了球形假设条件时,需要进行epsilon (ε)校正。SAS提供了Greenhouse-Geisser和Huynh-Feldt两种校正方法,epsilon (ε)值越低,说明违反球形假设的程度越大,当epsilon (ε)=1时,完全服从球形假设。当Greenhouse-Geisserepsilonε<0.75时,使用Greenhouse-Geisser方法校正;当Greenhouse-Geisserepsilonε>0.75时,使用Huynh-Feldt方法校正。
(二) 基线数据处理
- 重复测量数据分析往往会遇到基线数据和后续测量数据的条件不一致的情况,如针对某种治疗方法对镇痛效果的影响,测量了治疗前和治疗后多次时间点的镇痛效果,此时基线数据和后续多个测量数据的条件则不一致。对于这种情况,基线数据一般不应作为重复测量的第一次纳入重复测量方差分析。