关键词:SPSS; 一般线性模型; 方差成分分析
一、案例介绍
为研究不同因素对青少年牙齿发育情况的影响,现随机选取了4个年龄段(age,1=8岁,2=10岁,3=12岁,4=14岁)的108名儿童,牙齿发育情况以垂体至翼上颌裂长度(mm)进行衡量,定义为“distance”,并收集他们的性别(gender,1=女,2=男)和体质指数(BMI)信息。对数据的变量和水平进行标签赋值后部分数据见图1。本案例数据可从“附件下载”处下载。
二、问题分析
本案例的分析目的是判断年龄、性别和体质指数对青少年牙齿发育情况的影响,不同因素具有不同的影响程度。针对这种情况,可以使用方差成分分析进行预分析。但需要满足6个条件:
条件1:因变量为连续变量。本研究中,垂体至翼上颌裂长度为连续变量,该条件满足。
条件2:有多个自变量,且均为分类变量。本研究中,年龄段、性别、体质指数均为分类变量,该条件满足。
条件3:各观测值之间相互独立。本研究中各研究对象的观测值都是独立的,不存在互相干扰的情况,该条件满足。
条件4:相互比较的各处理水平(组别)的总体方差齐,该条件需要通过软件分析后判断。
条件5:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件6:各组、各水平(时间点)观察变量为正态(或近似正态)分布,该条件需要通过软件分析后判断。
三、适用条件判断
(一) 生成因变量残差
1. 软件操作
选择“分析”—“一般线性模型”—“单变量” (图2)
打开“单变量”对话框(图3),将distance选入右侧“因变量”框,将gender、BMI选入右侧“固定因子”框,将age选入右侧“随机因子”框。
点击图3右侧“保存”,在“单变量:保存”子对话框(图4)中,“残差”下勾选“未标准化”,其他不变,点击“继续”,回到主对话框后点击“确定”即可生成因变量残差。
2. 结果解读
“数据视图”可见新生成1个变量“RES_1”(图5),即为因变量残差。
(二) 条件4判断(方差齐性检验)
1. 软件操作
点击图3右侧“选项”,打开“单变量:选项”子对话框(图6),勾选“齐性检验”,点击“继续”回到主页面后点击“确定”,即可出现方差齐性检验结果。
2. 结果解读
“误差方差的莱文等同性检验”结果见图7,看表格第一行“基于平均值”的结果,“莱文统计”F=0.610、P=0.859;提示不同年龄段的数据方差相等。满足条件4。
(三) 条件5判断(异常值判断)
1. 软件操作
选择“分析”—“描述统计”—“探索”(图8)
打开“探索”对话框(图9),将残差变量“RES_1”选入右侧“因变量列表”框 。
点击图9右侧“图”,打开“探索:图”子对话框(图10),勾选“带检验的正态图”和“茎叶图”,其他不变。点击“继续”,回到图9后,点击“确定”,即可得到异常值和正态性检验结果。
2. 结果解读
青少年垂体至翼上颌裂长度残差的箱式图见图11,结果显示93号样本可能为异常值,但查看原始数据发现该数值从专业角度尚不能判断为异常值,因此本案例未发现需要删除的异常值,满足条件5。
(四) 条件6判断(残差正态性检验)
1. 软件操作
同上述异常值检测的操作。
2. 结果解读
正态性检验的结果见图12,柯尔莫哥洛夫-斯米诺夫(K-S检验)和夏皮罗-威尔克正态性(S-W检验)。K-S检验适用于大样本资料,本例查看S-W检验结果,P=0.863>0.05,提示残差服从正态分布。
四、方差成分分析
(一) 软件操作
选择“分析”—“一般线性模型”—“方差成分”(图13)
打开“方差成分”对话框(图14),将变量“distance”选入右侧“因变量”框,将gender和BMI选入右侧“固定因子”框,将age选入右侧“随机因子”框。
点击图14右侧“模型”,打开“方差成分:模型”子对话框(图15)。本例默认选择“全因子”模型 。
“全因子模型”包含所有因子主效应、所有协变量主效应以及所有因子间交互,但不包含协变量交互。选择“构建项”可以仅指定其中一部分的交互或指定因子协变量交互,必须指定要包含在模型中的所有项。
点击图14右侧“选项”,打开“方差成分:选项”子对话框(图16)。选择“受限最大似然法(R)”。
估计方差成分共有4种方法:最小范数二次无偏估计(MINQUE)、方差分析(ANOVA)、最大似然法(ML)和受限最大似然法(REML) 。
- 最小范数二次无偏估计(MINQUE):估计基于固定效应的不变值。若数据服从正态分布并且估计值是正确的,可生成所有无偏估计的最小方差。
- 方差分析(ANOVA):使用Ⅰ型或Ⅲ型平方和计算每个效应的无偏估计。若指定的模型错误、估算方法不恰当或样本量不足,结果会出现负方差估计。
- 最大似然法(ML):使用迭代法计算与实际观测的数据最一致的估计值,为有偏估计,采用近似正态方法,对固定效应估计时未考虑自由度。
- 限制性最大似然法(REML):对于大量的平衡数据,采用简化的方差估计,可对固定效应进行调整,其标准误差比ML法小,并考虑自由度。
点击图14右侧“保存”,打开“方差成分:保存”子对话框(图17)。本例不进行任何选择。点击“继续”后回到图14,点击“确定”,则可得到统计结果。
“方差成分估算”选项可将方差成分估计值和估计标签保存到数据文件,便于计算更多统计量及进一步的广义线性模型分析,如计算置信区间或检验假设。“成分共变”可将方差-协方差矩阵或相关性矩阵保存到数据文件,仅适用于最大似然法或限制性最大似然法。
(二) 结果解读
“因子级别信息”和“方差估算值”结果见图18,年龄所占的方差成分最大,为2.061,说明年龄对于青少年牙齿发育的程度影响最大;年龄*性别交互效应的方差估算值为0.629,年龄*性别*体重指数交互效应的方差估算值为0.700,表明这两个交互效应对因变量的影响较小;年龄*体重指数交互效应方差估计算值为0.000,表明两者无交互作用。
渐近协方差矩阵结果见图19。矩阵中依然是年龄所占的均方最大,进一步表明了年龄对青少年牙齿发育情况的需要效应最大。
五、结论
本研究采用方差成分分析判断年龄段、性别和体重指数对青少年牙齿发育情况的影响。通过通过Levene’s检验,提示数据总体方差相等,对模型残差绘制箱线图,提示数据不存在异常值;通过Shapiro-Wilk检验,提示残差服从正态分布。
方差成分分析表明,在所有影响因素中,年龄所占的方差成分最大,提示年龄对于青少年牙齿发育程度的影响最大,其余交互效应对因变量不存在影响或影响较小。因此年龄的调整可以有效减小数据方差,从而开展进一步分析。
六、分析小技巧
方差成分分析能够考查每个变量所占总方差的比例大小,以及几个交互变量对总方差的贡献,为如何减小数据方差提供依据的统计方法。通过计算方差成分能够确定减小方差时的重点关注对象,但方差成分分析只是一个预处理过程,其本身功能有限,只能进行初步分析,为进一步处理提供线索。