关键词:SPSS; 协方差分析; 两因素协方差分析; 交互作用; 主效应; 平行性检验; 平行线检验
一、案例介绍
为研究不同蛋白水平(高蛋白和低蛋白)和饲养方式(A、B、C)对增加小鼠体重的影响,进行了2×3析因设计的研究,将初始体重相近的60只小鼠随机分成6组,在高蛋白和低蛋白组均分别按照A、B、C3种饲养方式进行喂养,3周后记录小鼠的体重增量。但在实验设计时未对小鼠的进食量加以限制。试比较不同蛋白水平和饲养方式的增重效果是否有差异?部分数据见图1,本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是分析不同蛋白水平和饲养方式对小鼠体重增量的影响。这两种因素往往会相互影响,这种影响可能为正向的增强效应,也可能为反向的拮抗作用。为了分析这两种因素对结果的影响,可以使用两因素方差分析,但由于本研究设计时未对小鼠的进食量加以限制,所以需要将进食量作为体重增量的影响因素进行两因素协方差分析(Two-way ANCOVA)。两因素协方差分析需要满足9个条件:
条件1:观察变量为连续变量。本研究中观察变量为体重增量,为连续变量,该条件满足。
条件2:有两个因素,且都为分类变量。本研究中有蛋白水平、饲养方式两个因素,都为分类变量,该条件满足。
条件3:协变量是连续变量。本研究中协变量为进食量,是连续变量,该条件满足。
条件4:各研究对象之间相互独立。本研究中各个研究对象均为独立样本,不存在互相干扰的情况,该条件满足。
条件5:观察变量不存在显著的异常值。该条件需要通过软件分析后判断。
条件6:各组内协变量和因变量之间存在线性关系。该条件需要通过软件分析后判断。
条件7:各组资料都来自正态分布的总体(样本数据呈正态或近似正态分布)。该条件需要通过软件分析后判断。
条件8:相互比较的各处理水平(组别)的总体方差相等。该条件需要通过软件分析后判断。
条件9:各组内协变量和因变量的回归直线平行,即通过平行性检验。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
条件5~9的判断均需要根据方差分析生成的残差进行分析,详见下文“方差分析”部分。
(二) 方差分析
1. 生成模型残差
(1) 软件操作
- 选择“分析”—“一般线性模型”—“单变量” (图2)。
- 在“单变量”对话框(图3)中,将观察变量“体重增量”选入右侧“因变量”,将分组变量“蛋白水平”和“饲养方式”选入右侧“固定因子”,将观察变量“进食量”选入右侧“协变量”。
- 点击图3右侧“模型”(图4),选择“指定模型”中的“构建项”选项,将观察变量Protein、Feed和Intake的主效应以及三者两两之间的交互效应放入“模型”栏,点击“继续”,回到“单变量”对话框。
- 点击图3右侧“EM边际均值”(图5),将Protein、Feed和Feed*Protein选入右侧“显示下列各项的平均值”框,勾选“比较主效应”,选择“邦弗伦尼”选项(此步骤将进行多组间的两两比较,如果实际研究中只有两组,则不用选择);点击“继续”,回到“单变量”对话框。
- 点击图3右侧“保存”(图6),勾选“残差”中的“标准化”选项,勾选“诊断”中的“库克距离”;点击“继续”,回到“单变量”对话框。
- 点击图3右侧“选项”,勾选“描述统计”“效应量估算”“齐性检验”(图14)。点击“继续”,回到“单变量”对话框,点击“确定”即可。
(2) 结果解读
经过上述步骤在数据页面生成了标准化残差“ZRE_1”和库克距离“COO_1”两个新变量(图8)。
2. 适用条件判断
(1) 条件5判断(异常值检测)
异常值检测有多种方法:
- 可以查看库克距离,一般认为当D<0.5时不是异常值点,当D≥0.5时是异常值点。对库克距离升序排列后可知,最大库克距离D为0.16<0.5,提示不存在显著异常值,见图9。
- 可以查看标准化残差(ZRE_1),检查是否存在绝对值大于3的离群值。对标准化残差(ZRE_1)升序排列后可知,最小(图10-1)和最大(图10-2)标准化残差分别为-2.26和1.73,绝对值均未超过3。
(2) 条件6判断(协变量与因变量之间的线性关系检验)
主体间效应检验结果见图11,可知进食量Intake对应的回归系数的显著性检验结果为F=11.997,P=0.001,可以认为进食量的回归系数有统计学意义,即进食量和体重增量存在线性关系(此处也可以先绘制进食量Intake与体重增量Weight之间的散点图,观察其线性趋势,请读者自行操作)。满足条件6。
因此,进食量Intake对体重增量Weight有影响,在比较不同蛋白水平和饲养方式对体重增量的影响时,应扣除进食量对体重增量的影响。
(3) 条件7判断(正态性检验)
残差正态性检验结果见图12,可知W=0.983,P=0.571>0.1,接受正态性,满足条件7。
(4) 条件8判断(方差齐性检验)
组间方差齐性检验结果见图13,可知F=1.465,P=0.216>0.10,可以认为组间方差齐,满足条件8。
(5) 条件9判断(平行性检验)
平行性检验其本质是考察自变量与协变量的交互项是否具有统计学意义,如果有统计学意义,就说明各组间回归斜率不同;若无统计学意义,就说明各组间回归斜率相同。
主体间效应检验的结果(图11)可知,“修正模型”列的F =5.614,P<0.001,表示整体模型检验具有统计学意义。自变量(Protein)和协变量(Intake)交互项的检验结果为FProtein*Intake =0.261,PProtein*Intake=0.611,无统计学意义,说明各组间回归斜率相同,即回归直线平行。自变量(Feed)和协变量(Intake)交互项的检验结果为FFeed*Intake =0.075,PFeed*Intake=0.928,无统计学意义,说明各组间回归斜率相同,即回归直线平行。满足条件9。
(三) 统计描述及推断
1. 软件操作
因条件9中自变量和协变量交互项无统计学意义,所以交互项不应放在模型中。在图4操作页面将Intake*Protein和Feed*Intake两个交互项移除模型,重新分析,其他操作不变。
2. 交互效应
重新分析后的主体间效应检验见图14,可知修正模型检验的F=8.461,P<0.001,可以认为拟合的模型有统计学意义。模型中不同蛋白水平和饲养方式的交互项“Protein*Feed”对应的检验结果为F=3.526,P=0.036<0.05,差异有统计学意义,可以认为不同蛋白水平和饲养方式之间存在交互作用。因此,需要进行单独效应分析。
(四) 单独效应分析
1. 软件操作
回到“单变量”分析主对话框(图3),注意此处是在将Intake*Protein和Feed*Intake两个交互项移除模型后的分析步骤,点击下方“粘贴”,则出现“IBM SPSS Statistics 语法编辑器”界面,编辑区中现有的语法是在“单变量”对话框中已经通过菜单命令执行的操作(图15)。单独效应分析需要在第8行“/EMMEANS=TABLES(Feed*Protein) WITH(Intake=MEAN)”后输入“/EMMEANS=TABLES(Feed*Protein) WITH(Intake=MEAN) COMPARE(Feed) ADJ(BONFERRONI)”,并复制该语句,将COMPARE后的“Feed”改为“Protein” (图16)。COMPARE(Feed)是指根据变量“Feed”提供单独效应结果;ADJ(BONFERRONI)是指对使用Bonferroni法进行各组的多重比较。若无需多重比较,可删去。
2. 统计描述
原始数据的统计学描述结果见图17,即未校正协变量前的统计学描述。
不同蛋白水平、不同饲养方式组的估计边际均值(即校正了进食量后的体重增量)见图18,可知与图17数据并不相同。
3. 饲养方式的单独效应分析
单变量检验结果见图19,可知在不同蛋白水平中,不同饲养方式的体重增量差异均有统计学意义(F高蛋白=0.017,F低蛋白=0.003)。因为饲养方式分为了A、B、C3组,要进一步了解哪两组之间存在差异需通过事后检验(两两比较)。
成对比较结果见图20,可知在高蛋白组中,A、B两种方式的差值为2.913 g,但差异无统计学意义(P>0.999);A方式比C方式高20.829 g,差异有统计学意义(P=0.015);B方式比C方式高17.915 g,差异无统计学意义(P=0.178)。同理可解读在低蛋白组中,A方式比B方式低17.247 g,差异有统计学意义(P=0.022);A方式比C方式高8.191 g,差异无统计学意义(P=0.474);B方式比C方式高25.439 g,差异有统计学意义(P=0.003)。
4. 蛋白水平的单独效应分析
单变量检验结果见图21,可知在不同饲养方式下,不同蛋白水平的体重增量差异比较结果并不一致,只有A饲养方式下,不同蛋白水平的比较结果有统计学意义(F=19.554,P<0.001)。
成对比较结果见图22,可知在A饲养方式下,高蛋白组的体重增量比低蛋白组高24.051 g,差异有统计学意义(P<0.001)。
四、结论
本研究采用两因素协方差分析,判断在调整进食量后高低蛋白水平和A、B、C3种饲养方式对小白鼠的增重效果是否有差别。通过统计分析和专业知识判断,数据不存在异常值;通过回归系数检验,提示各组内协变量和因变量之间存在线性关系;通过Shapiro-Wilk检验,提示该资料残差满足正态性;通过Levene’s检验,提示各组因变量满足方差齐性要求;通过回归斜率齐性检验,提示满足平行性检验要求。蛋白水平与饲养方式之间交互作用无统计学意义(FProtein*Feed=3.526,P=0.036<0.05),故进行单独效应分析。
饲养方式的单独效应分析显示,在不同蛋白水平中,不同饲养方式的体重增量差异均有统计学意义(F高蛋白=0.017,F低蛋白=0.003)。在高蛋白组中,A、B两种方式的差值为2.913 g,差异无统计学意义(P>0.999);A方式比C方式高20.829 g,差异有统计学意义(P=0.015);B方式比C方式高17.915 g,差异无统计学意义(P=0.178)。在低蛋白组中,A方式比B方式低17.247 g,差异有统计学意义(P=0.022);A方式比C方式高8.191 g,差异无统计学意义(P=0.474);B方式比C方式高25.439 g,差异有统计学意义(P=0.003)。
蛋白水平的单独效应分析显示,在不同饲养方式下,不同蛋白水平的体重增量差异比较结果并不一致,只有A饲养方式下,不同蛋白水平的比较结果有统计学意义(P<0.001)。在A饲养方式下,高蛋白组的体重增量比低蛋白组高24.051 g (P<0.001)。