关键词:MedCalc; 协方差分析; 两因素协方差分析; 交互作用; 主效应; 平行性检验; 平行线检验
一、案例介绍
为研究不同蛋白水平(高蛋白和低蛋白)和饲养方式(A、B、C)对增加小鼠体重的影响,进行了2×3析因设计的研究,将初始体重相近的60只小鼠随机分成6组,在高蛋白和低蛋白组均分别按照A、B、C3种饲养方式进行喂养,3周后记录小鼠的体重增量。但在实验设计时未对小鼠的进食量加以限制。试比较不同蛋白水平和饲养方式的增重效果是否有差异?部分数据见图1,本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是分析不同蛋白水平和饲养方式对小鼠体重增量的影响。这两种因素往往会相互影响,这种影响可能为正向的增强效应,也可能为反向的拮抗作用。为了分析这两种因素对结果的影响,可以使用两因素方差分析,但由于本研究设计时未对小鼠的进食量加以限制,所以需要将进食量作为体重增量的影响因素进行两因素协方差分析(Two-Way ANCOVA)。两因素协方差分析需要满足9个条件:
条件1:观察变量为连续变量。本研究中观察变量为体重增量,为连续变量,该条件满足。
条件2:有两个因素,且都为分类变量。本研究中有蛋白水平、饲养方式两个因素,都为分类变量,该条件满足。
条件3:协变量是连续变量。本研究中协变量为进食量,为连续变量,该条件满足。
条件4:各研究对象之间相互独立。本研究中各个研究对象均为独立样本,不存在互相干扰的情况,该条件满足。
条件5:观察变量不存在显著的异常值。该条件需要通过软件分析后判断。
条件6:各组内协变量和因变量之间存在线性关系。该条件需要通过软件分析后判断。
条件7:各组资料都来自正态分布的总体(样本数据呈正态或近似正态分布)。该条件需要通过软件分析后判断。
条件8:相互比较的各处理水平(组别)的总体方差相等。该条件需要通过软件分析后判断。
条件9:各组内协变量和因变量的回归直线平行,即通过平行性检验。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 数据准备
打开MedCalc软件,导入数据见图2。
点击左侧“变量”,打开“变量”对话框(图3),在此处选中需要进行标签设置的变量,然后点击右侧“属性”。
打开“变量属性”对话框(图4),分别设置变量Feed、Intake、Protein、Weight的标签,其中Feed和Protein作为分类变量。此外,还可以通过“扫描数据”进行数值标签的设置,记录每个数值分别代表哪一个组别。
(二) 适用条件判断
条件6~9的判断均需要根据方差分析生成的残差进行分析,详见下文“方差分析”部分。
(三) 方差分析
1.生成模型残差
选择“统计”—“方差分析”—“协方差分析”(图5)。
在“协方差分析”对话框(图6)中,“因变量”选择Weight,“因子”选择Feed和Protein,“协变量”选择Intake,其他保持默认不变,点击“确定”。
在分析结果最右下角点击“保存残差”,打开“保存残差”子对话框(图7),“选项”下勾选“标准化”,点击“确定”。在数据视图页面可见生成了1列新的变量“ANCOVA_Resid1”,即为模型的标准化残差,见图8。
2.适用条件判断
(1) 条件5判断(异常值检测)
选择“统计”—“异常值检测”(图9);将“ANCOVA_Resid1”选入“变量”,其他设置见图10;结果见图11。
残差的异常值检测结果(图11)显示,未发现异常值。
(2) 条件6判断(协变量与因变量之间的线性关系检验)
“对象间效应的检验”结果(图12)显示,进食量Intake对应的回归系数的显著性检验结果为F=18.487,P<0.001,可认为进食量的回归系数有统计学意义,即进食量和体重增量存在线性关系(此处也可以先绘制进食量Intake与体重增量Weight之间的散点图,观察其线性趋势,请读者自行操作)。满足条件6。
因此,进食量Intake的确对体重增量Weight具有影响,在比较不同蛋白水平和饲养方式对体重增量的影响时,应扣除进食量Intake对体重增量Weight的影响。
(3) 条件7判断(正态性检验)
残差正态性检验结果(图13)显示,W=0.981,P=0.473>0.05,接受正态性,满足条件7。
(4) 条件8判断(方差齐性检验)
组间方差齐性检验结果(图14)显示,F=1.0659,P=0.390>0.10,可以认为组间方差齐,满足条件8。
(5) 条件9判断(平行性检验)
平行性检验其本质是考察自变量与协变量的交互项是否具有统计学意义,若有统计学意义,则说明各组间回归斜率不同;若无统计学意义,就说明各组间回归斜率相同。回归斜率齐性检验结果(图15)显示,F=0.516,P=0.763>0.05,表明各组之间回归斜率的差异无统计学意义,即回归线平行,满足条件9。
3. 统计描述
Protein和Feed估计边际均值分别见图16和图17,可知高蛋白和低蛋白水平组的校正均数和95%CI分别为95.17 (90.48~99.85) g和82.57 (77.88~87.25) g。A、B、C3种饲养方式组的校正均数和95%CI分别为90.98 (85.26~96.69) g、99.73 (91.12~108.35) g、75.89 (67.14~84.64) g。
4. 统计推断
“对象间效应的检验”结果(图12)还显示,校正模型检验的F=17.825,P<0.001,可以认为拟合的模型有统计学意义。模型中不同蛋白水平和饲养方式的交互项“Protein*Feed”对应的检验结果为F=2.882,P=0.065>0.05,差异无统计学意义,可以认为不同蛋白水平和饲养方式之间不存在交互作用。因此,应该看主效应结果。主效应分析结果(图12)显示不同蛋白水平Protein对应的检验结果为F=14.431,P<0.001;不同饲养方式Feed对应的检验结果为F=5.164,P=0.009<0.05。这两者的差异均有统计学意义,可以认为在扣除进食量的影响后,不同蛋白水平或不同饲养方式喂养的小白鼠的增重效果不同。因为蛋白水平只分为高蛋白和低蛋白两组,所以结合统计描述结果可以得到高蛋白水平组的体重增量显著高于低蛋白水平组。因为饲养方式分为了A、B、C3组,要具体了解哪两组之间存在差异需进一步进行事后检验(两两比较)。
5. 事后检验(两两比较)
不同饲养方式对增重影响的两两比较结果(图18)显示,饲养方式A和饲养方式B的差异为-8.755g,但无统计学意义(P=0.276>0.05);饲养方式A和饲养方式C的差异为15.085g,有统计学意义(P=0.018<0.05),即饲养方式A对小白鼠增重的影响显著大于饲养方式C;饲养方式B和饲养方式C的差异为23.839g,也有统计学意义(P=0.009<0.05),即饲养方式B对小白鼠增重的影响显著大于饲养方式C。
四、结论
本研究采用两因素协方差分析,判断在调整进食量后高低蛋白水平和A、B、C3种饲养方式对小白鼠的增重效果是否有差别。通过统计分析和专业知识判断,数据不存在异常值;通过回归系数检验,提示各组内协变量和因变量之间存在线性关系;通过Shapiro-Wilk检验,提示该资料残差满足正态性;通过Levene’s检验,提示各组因变量满足方差齐性要求;通过回归斜率齐性检验,提示满足平行性检验要求。
两因素协方差分析显示,在调整进食量后高蛋白组和低蛋白组体重增量的估算边际均值和95%CI分别为95.17 (90.48~99.85) g和82.57 (77.88~87.25) g,在调整进食量后A、B、C3个饲养方式组体重增量的估算边际均值和95%CI分别为90.98 (85.26~96.69) g、99.73 (91.12~108.35) g、75.89 (67.14~84.64) g。不同蛋白水平和饲养方式之间不存在交互作用(F=2.882,P=0.065>0.05),所以要看主效应结果。主效应分析结果显示,在扣除进食量的影响后,不同蛋白水平喂养的小白鼠的增重效果不同(F=14.431,P<0.001),高蛋白水平组的体重增量显著高于低蛋白水平组;在扣除进食量的影响后,不同饲养方式喂养的小白鼠的增重效果不同(F=5.164,P=0.009<0.05),通过事后两两比较,可以得到饲养方式A和饲养方式B的差异无统计学意义(P=0.276>0.05);饲养方式A对小白鼠增重的影响显著大于饲养方式C (P=0.018<0.05);饲养方式B对小白鼠增重的影响显著大于饲养方式C (P=0.009<0.05)。
五、分析小技巧
协方差分析是针对在实验设计阶段难以控制其取值水平,或者无法严格控制的因素,在统计分析阶段对其进行统计控制的一种分析方法,实质为线性回归分析和方差分析的结合。适用于完全随机设计、随机区组(配伍)设计、拉丁方设计、析因设计等类型的方差分析。
协方差分析一般要求协变量在组间的观察范围相差不宜太大(分析前最好先对协变量均数间的差别作假设检验),否则修正后的边际均值的差值可能会落在回归线的延长线上,此时回归线外推后是否仍然满足平行线和线性关系的条件尚不可知,其协方差分析的结论可能不一定准确。
本案例如果不调整协变量“进食量”的影响,直接采用两因素方差分析比较两种蛋白水平和3种饲养方式的增重效果,将会得出和本案例分析结果不一样的错误结论(感兴趣的读者请自行操作)。