关键词:Stata; 重复测量; 重复测量资料; 重复测量方差分析; 单因素重复测量方差分析; 球形检验; 交互作用; 主效应; 单独效应
一、案例介绍
检验科研究血样放置时间对某生化指标浓度检测的影响,采集了10份人体血液标本,分别在放置0分钟(T0)、30分钟(T30)、60分钟(T60)和90分钟(T90)时对该指标的浓度(mmol/L)进行检测,分析放置时间是否对该生化指标检测结果有影响?数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较4个时间点的生化指标浓度是否有差异。由于4个时间点的数据属于重复测量数据,可以使用单因素重复测量方差分析(One-Way Repeated Measures ANOVA)。但需要满足4个条件:
条件1:观察变量唯一,且为连续变量。本研究中观察变量为生化指标浓度,且为连续变量,该条件满足。
条件2:观察变量为重复测量数据,即不满足独立性。本研究中4个时间点测量的生化指标浓度均是针对同一批样本,因此不满足独立性,该条件满足。
条件3:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件4:各水平(时间点)观察变量为正态(或近似正态)分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(异常值判断)
(1) 软件操作
①计算描述性统计量,结果如图2所示。
summarize t0 t30 t60 t90
②绘制箱线图检查是否存在异常值,结果如图3-1—图3-4所示。
graph box t0 graph box t30 graph box t60 graph box t90
(2) 结果解读
图2列出了各组观察变量的最小值和最大值,依据专业尚不能认为存在异常值的情况;此外,图3-1—图3-4中的箱线图也未提示任何异常值。综上,本案例未发现需要删除的异常值,满足条件3。
2. 条件4判断(正态性检验)
(1) 软件操作
单因素重复测量方差分析时,需要分别考察每一组的正态性情况。可单独检验每一组,也可使用循环语句,结果如图4所示。
swilk t0 swilk t30 swilk t60 swilk t90
或
foreach var of varlist t0 t30 t60 t90{ swilk `var' }
(2) 结果解读
图4的正态性检验结果显示t0、t30、t60、t90时间点的P值分别为0.385、0.323、0.481、0.996,均>0.1,提示四组数据服从正态分布。综上,本案例满足条件4。
(二) 球形假设检验
1. 软件操作
①使用“mauchly”命令可直接进行球形假设检验,但需先安装“moremata包”和“mauchly包”,安装代码如下:
ssc install moremata ssc install mauchly
②检验球形假设,结果如图5所示。
mauchly t0 t30 t60 t90
2. 结果解读
由图5的结果可知,W=0.252,P=0.0591,表示满足球形假设。
(三) 统计分析
1. 软件操作
(1) 数据格式转换
在进行重复测量的方差分析前,需要转换数据格式,从“wide format”(截面数据)变换为“long format”(面板数据),变换后数据如图6所示。
reshape long t, i(id) j(time)
上述命令中,i指个体,j指时间,t为各类随j变化的变量,其中j()括号中变量名称可自定义命名。
(2) 单因素重复测量方差分析
anova t time id, repeated(time)
结果如图7所示。
(3) 估算边际均值
margins time, plot
结果如图8、图9所示。
2. 结果解读
图7显示了单因素重复测量方差分析的结果。上方的表格显示了未校正的重复测量的单因素方差分析结果,下方的表格结果显示了在不满足球形假设时,用Hunyh-Feldt 、Greenhouse-Geisser、Box's conservative三种方法校正的结果。由于本案例满足球形假设,使用未校正法进行数据分析。可见,时刻time的F=116.10,P<0.001;提示不同时间点该生化指标浓度差异有统计学意义。
图8显示了四个时刻的估算边际均值、标准误及均值的95%CI。图9估算边际均值图绘制了四个时间点该生化指标浓度的变化情况,可见随着放置时间的延长,浓度逐渐降低。
(四) 事后检验(两两比较)
上面分析得出了“不同时间点生化指标浓度差异有统计学意义”的结论,但是到底是哪些组别之间存在差异尚不清楚,因此需要进行事后检验,开展两两比较。
1. 软件操作
分别使用未校正和Bonferroni校正法进行两两比较,结果如图10-1、图10-2所示。
pwcompare time, effects
pwcompare time, effects bonferroni
2. 结果解读
根据图10-1的结果可知,随着时间的延长,各时刻与T0时刻相比,均值差逐渐增大,且均有统计学意义(P<0.05)。根据图10-2的结果可知,随着时间的延长,各时刻与T0时刻相比,均值差逐渐增大,T60、T90时刻与T0时刻相比,结果均有统计学意义(P<0.001),但T30时刻与T0时刻相比的结果无统计学意义(P>0.1)。
四、结论
本研究采用单因素重复测量方差分析判断四个时间点的生化指标浓度是否有差异。通过专业知识判断,数据不存在异常值;通过Shapiro-Wilk检验,提示各组数据服从正态分布;球形检验提示满足球形假设(W=0.252,P=0.0591),使用未校正法进行数据分析。
T0、T30、T60、T90时间点的生化指标浓度均值分别为5.656±0.312、5.548±0.339、5.269±0.233、4.868±0.226 mmol/L。分析提示,不同时间点生化指标浓度差异有统计学意义(F=116.10,P<0.001)。进一步进行两两比较,可知随着时间的延长,各时刻与T0时刻相比,均值差逐渐增大,且均有统计学意义(P<0.05)。如果使用“Bonferroni”校正法进行两两比较,则T60、T90时刻与T0时刻相比,结果均有统计学意义(P<0.001),而T30时刻与T0时刻相比的结果无统计学意义(P>0.1)。综上可知,放置时间对该生化指标检测结果具有较大的影响。
五、知识小贴士
重复测量设计常见于同一组研究对象多次、多个部位或多个维度测量数据间的比较,包括时间重复测量、部位重复测量和维度重复测量。时间重复测量如,同一组患者用药后多个时间点某疗效指标的比较;部位重复测量如,相同研究对象,身体多个部位某指标(如皮质厚度)的比较;维度重复测量如,使用某量表测量同一批研究对象不同生理或心理状态,其不同状态维度之间的比较(如生活质量SF-36量表各个维度之间的比较)。
六、分析小技巧
(一) 球形度检验
- 重复测量数据的方差分析过程中,需要先考察数据的球形分布特征,当违背了球形假设条件时,需要进行epsilon (ε)校正。epsilon (ε)值越低,说明违反球形假设的程度越大,当epsilon (ε)=1时,完全服从球形假设。当Greenhouse-Geisserepsilonε<0.75时,使用Greenhouse-Geisser方法校正;当Greenhouse-Geisserepsilonε>0.75时,使用Huynh-Feldt方法校正。
- 使用Stata进行重复测量的方差分析,结果列出了两个表(图8),上方的表格显示了未校正的重复测量的单因素方差分析结果,下方的表格结果显示了在不满足球形假设时,用Hunyh-Feldt 、Greenhouse-Geisser、Box's conservative三种方法校正的结果。
(二) 基线数据处理
- 重复测量数据分析往往会遇到基线数据和后续测量数据的条件不一致的情况,如针对某种治疗方法对镇痛效果的影响,测量了治疗前和治疗后多次时间点的镇痛效果,此时基线数据和后续多个测量数据的条件则不一致。对于这种情况,基线数据一般不应作为重复测量的第一次纳入重复测量方差分析。
(三) 使用“mauchly”命令进行球形检验
- Stata中使用“mauchly”命令进行球形检验,对于不同的数据形式命令不同,但是结果一致。以本案例为例,
- 若数据是截面数据(“wide format”),则命令为:
mauchly t0 t30 t60 t90
- 若数据是面板数据(“long format”),则命令为:
xtset id mauchly t, m(time)
其中,“xtset id”是说明数据为面板数据。