关键词:SPSS; 协方差分析; 两因素协方差分析; 交互作用; 主效应; 平行性检验; 平行线检验
一、案例介绍
为研究不同蛋白水平(高蛋白和低蛋白)和饲养方式(A、B、C)对增加小鼠体重的影响,进行了2×3析因设计的研究,将初始体重相近的60只小鼠随机分成6组,在高蛋白和低蛋白组均分别按照A、B、C3种饲养方式进行喂养,3周后记录小鼠的体重增量。但在实验设计时未对小鼠的进食量加以限制。试比较不同蛋白水平和饲养方式的增重效果是否有差异?部分数据见图1,本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是分析不同蛋白水平和饲养方式对小鼠体重增量的影响。这两种因素往往会相互影响,这种影响可能为正向的增强效应,也可能为反向的拮抗作用。为了分析这两种因素对结果的影响,可以使用两因素方差分析,但由于本研究设计时未对小鼠的进食量加以限制,所以需要将进食量作为体重增量的影响因素进行两因素协方差分析(Two-way ANCOVA)。两因素协方差分析需要满足9个条件:
条件1:观察变量为连续变量。本研究中观察变量为体重增量,为连续变量,该条件满足。
条件2:有两个因素,且都为分类变量。本研究中有蛋白水平、饲养方式两个因素,都为分类变量,该条件满足。
条件3:协变量是连续变量。本研究中协变量为进食量,是连续变量,该条件满足。
条件4:各研究对象之间相互独立。本研究中各个研究对象均为独立样本,不存在互相干扰的情况,该条件满足。
条件5:观察变量不存在显著的异常值。该条件需要通过软件分析后判断。
条件6:各组内协变量和因变量之间存在线性关系。该条件需要通过软件分析后判断。
条件7:各组资料都来自正态分布的总体(样本数据呈正态或近似正态分布)。该条件需要通过软件分析后判断。
条件8:相互比较的各处理水平(组别)的总体方差相等。该条件需要通过软件分析后判断。
条件9:各组内协变量和因变量的回归直线平行,即通过平行性检验。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
条件5~9的判断均需要根据方差分析生成的残差进行分析,详见下文“方差分析”部分。
(二) 方差分析
1. 生成模型残差
(1) 软件操作
- 选择“分析”—“一般线性模型”—“单变量” (图2)。
- 在“单变量”对话框(图3)中,将观察变量“体重增量”选入右侧“因变量”,将分组变量“蛋白水平”和“饲养方式”选入右侧“固定因子”,将观察变量“进食量”选入右侧“协变量”。
- 点击图3右侧“模型”(图4),选择“指定模型”中的“构建项”选项,将观察变量Protein、Feed和Intake的主效应以及三者两两之间的交互效应放入“模型”栏,点击“继续”,回到“单变量”对话框。
- 点击图3右侧“EM边际均值”(图5),将Protein、Feed和Feed*Protein选入右侧“显示下列各项的平均值”框,勾选“比较主效应”,选择“邦弗伦尼”选项(此步骤将进行多组间的两两比较,如果实际研究中只有两组,则不用选择);点击“继续”,回到“单变量”对话框。
- 点击图3右侧“保存”(图6),勾选“残差”中的“标准化”选项,勾选“诊断”中的“库克距离”;点击“继续”,回到“单变量”对话框。
- 点击图3右侧“选项”,勾选“描述统计”“效应量估算”“齐性检验”(图14)。点击“继续”,回到“单变量”对话框,点击“确定”即可。
(2) 结果解读
经过上述步骤在数据页面生成了标准化残差“ZRE_1”和库克距离“COO_1”两个新变量(图8)。
2. 适用条件判断
(1) 条件5判断(异常值检测)
异常值检测有多种方法:
- 可以查看库克距离,一般认为当D<0.5时不是异常值点,当D≥0.5时是异常值点。对库克距离升序排列后可知,最大库克距离D为0.14<0.5,提示不存在显著异常值,见图9。
- 可以查看标准化残差(ZRE_1),检查是否存在绝对值大于3的离群值。对标准化残差(ZRE_1)升序排列后可知,最小(图10-1)和最大(图10-2)标准化残差分别为-2.14和1.82,绝对值均未超过3。
(2) 条件6判断(协变量与因变量之间的线性关系检验)
主体间效应检验结果见图11,可知进食量Intake对应的回归系数的显著性检验结果为F=13.464,P=0.001,可以认为进食量的回归系数有统计学意义,即进食量和体重增量存在线性关系(此处也可以先绘制进食量Intake与体重增量Weight之间的散点图,观察其线性趋势,请读者自行操作)。满足条件6。
因此,进食量Intake对体重增量Weight有影响,在比较不同蛋白水平和饲养方式对体重增量的影响时,应扣除进食量对体重增量的影响。
(3) 条件7判断(正态性检验)
残差正态性检验结果见图12,可知W=0.985,P=0.659>0.1,接受正态性,满足条件7。
(4) 条件8判断(方差齐性检验)
组间方差齐性检验结果见图13,可知F=0.885,P=0.498>0.10,可以认为组间方差齐,满足条件8。
(5) 条件9判断(平行性检验)
平行性检验其本质是考察自变量与协变量的交互项是否具有统计学意义,如果有统计学意义,就说明各组间回归斜率不同;若无统计学意义,就说明各组间回归斜率相同。
主体间效应检验的结果(图11)可知,“修正模型”列的F =5.082,P<0.001,表示整体模型检验具有统计学意义。自变量(Protein)和协变量(Intake)交互项的检验结果为FProtein*Intake =0.665,PProtein*Intake=0.419,无统计学意义,说明各组间回归斜率相同,即回归直线平行。自变量(Feed)和协变量(Intake)交互项的检验结果为FFeed*Intake =0.032,PFeed*Intake=0.968,无统计学意义,说明各组间回归斜率相同,即回归直线平行。满足条件9。
(三) 统计描述及推断
1. 软件操作
因条件9中自变量和协变量交互项无统计学意义,所以交互项不应放在模型中。在图4操作页面将Intake*Protein和Feed*Intake两个交互项移除模型,重新分析,其他操作不变。
2. 统计描述
原始数据的统计学描述结果见图14,即未校正协变量前的统计学描述。可见高蛋白和低蛋白组的体重增量平均值分别为96.13±14.91 g和81.60±15.07 g;A、B、C 3种饲养方式的体重增量平均值分别为90.60±17.71 g、85.90±14.99 g和90.10±17.32 g。
不同蛋白水平和不同饲养方式组的估计边际均值(即校正了进食量后的体重增量)见图15、16,可知高蛋白和低蛋白水平组的校正平均值和95%CI分别为95.17 (90.48~99.85) g和82.57 (77.88~87.25) g。A、B、C3种饲养方式组的校正平均值和95%CI分别为90.98 (85.26~96.69) g、99.73 (91.12~108.35) g、75.89 (67.14~84.64) g。
3. 交互效应
重新分析后的主体间效应检验见图17,修正模型检验的F=7.825,P<0.001,可以认为拟合的模型有统计学意义。模型中不同蛋白水平和饲养方式的交互项“Protein*Feed”对应的检验结果为F=2.882,P=0.065>0.05,差异无统计学意义,可以认为不同蛋白水平和饲养方式之间不存在交互作用。因此,应该看主效应结果。
4. 主效应分析
主效应分析结果(图17)显示,不同蛋白水平Protein对应的检验结果为F=14.431,P<0.001;不同饲养方式Feed对应的检验结果为F=5.164,P=0.009<0.05。这两者的差异均有统计学意义,可以认为在扣除进食量的影响后,不同蛋白水平或不同饲养方式喂养的小白鼠的增重效果不同。因为蛋白水平只分为高蛋白和低蛋白两组,所以结合统计描述结果可以得到高蛋白水平组的体重增量显著高于低蛋白水平组。因为饲养方式分为了A、B、C3组,要进一步了解哪两组之间存在差异需通过事后检验(两两比较)。
5. 事后检验(两两比较)
不同饲养方式对增重影响的两两比较结果见图18,可知A方式和B方式的差异为-8.755g,差异无统计学意义(P=0.275>0.05);A方式和C方式的差异为15.085g,差异有统计学意义(P=0.018<0.05),即A方式对小白鼠增重的影响显著大于C方式;B方式和C方式的差异为23.839g,差异也有统计学意义(P=0.009<0.05),即B方式对小白鼠增重的影响显著大于C方式。
四、结论
本研究采用两因素协方差分析,判断在调整进食量后高低蛋白水平和A、B、C3种饲养方式对小白鼠的增重效果是否有差别。通过统计分析和专业知识判断,数据不存在异常值;通过回归系数检验,提示各组内协变量和因变量之间存在线性关系;通过Shapiro-Wilk检验,提示该资料残差满足正态性;通过Levene’s检验,提示各组因变量满足方差齐性要求;通过回归斜率齐性检验,提示满足平行性检验要求。蛋白水平与饲养方式之间不存在交互作用(FProtein*Feed=2.882,P=0.065>0.05),故进行主效应分析。
两因素协方差分析显示,在调整进食量后高蛋白组和低蛋白组体重增量的估算边际均值和95%CI分别为95.17 (90.48~99.85) g和82.57 (77.88~87.25) g,在调整进食量后A、B、C3个饲养方式组体重增量的估算边际均值和95%CI分别为90.98 (85.26~96.69) g、99.73 (91.12~108.35) g、75.89 (67.14~84.64) g。主效应分析结果显示,在扣除进食量的影响后,不同蛋白水平喂养的小白鼠的增重效果不同(F=14.431,P<0.001),高蛋白水平组的体重增量显著高于低蛋白水平组;在扣除进食量的影响后,不同饲养方式喂养的小白鼠的增重效果不同(F=5.164,P=0.009<0.05),通过两两比较,可知A方式和B方式的差异无统计学意义(P=0.276>0.05);A方式对小白鼠增重的影响显著大于C方式 (P=0.018<0.05);B方式对小白鼠增重的影响显著大于C方式 (P=0.009<0.05)。
五、分析小技巧
- 协方差分析是针对在实验设计阶段难以控制其取值水平,或者无法严格控制的因素,在统计分析阶段对其进行统计控制的一种分析方法,实质为线性回归分析和方差分析的结合。适用于完全随机设计、随机区组(配伍)设计、拉丁方设计、析因设计等类型的方差分析。
- 协方差分析一般要求协变量在组间的观察范围相差不宜太大(分析前最好先对协变量均数间的差别作假设检验),否则修正后的边际均值的差值可能会落在回归线的延长线上,此时回归线外推后是否仍然满足平行线和线性关系的条件尚不可知,其协方差分析的结论可能不一定准确。
- 本案例如果不调整协变量“进食量”的影响,直接采用两因素方差分析比较两种蛋白水平和3种饲养方式的增重效果,将会得出和本案例分析结果不一样的错误结论(感兴趣的读者请自行操作)。