关键词:SPSS; t检验; 独立样本t检验; 成组t检验; 两样本均数比较; 近似t检验; 韦尔奇t检验; Welch近似t检验
一、案例介绍
某医生研究某生化指标(X)对病毒性肝炎诊断的临床意义,测得20名正常人和19名病毒性肝炎患者生化指标(X)含量(μg/dl),问病毒性肝炎患者和正常人生化指标(X)含量是否存在差异?
创建代表组别的数值型变量“group(组别)”,赋值为“1”或“2”分别代表正常人(Normal)和病毒性肝炎患者(Hepatitis),变量测量尺度设为“名义”。创建记录生化指标(X)的数字型变量,测量尺度设为“标度”。部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较两组数据均值是否有差异,即判断病毒性肝炎患者和正常人生化指标(X)含量是否存在差异。针对这种情况可以使用独立样本t检验。但需要满足6个条件:
条件1:观察变量为连续变量。本研究中的生化指标含量为连续变量,该条件满足。
条件2:观测值相互独立。本研究中各研究对象的观测值都是独立的,不存在互相干扰的情况,该条件满足。
条件3:观察变量可分为2组。本研究中分为病毒性肝炎患者和正常人,该条件满足。
条件4:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件5:各组观察变量为正态(或近似正态)分布,该条件需要通过软件分析后判断。
条件6:两组观察变量的方差相等,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件4判断(异常值判断)
独立样本t检验时,需要分别考察每一组的异常值情况。
(1) 软件操作
① 选择“分析”—“描述统计”—“探索”(图2)。
② 在“探索”对话框中将观察变量“X”选入右侧“因变量列表”框,将分组变量“group”选入右侧“因子列表”框,点击“确定”(图3)。
(2) 结果解读
异常值判断结果如图4和图5所示。图4是对该观察变量基本情况的描述,其中列出了各组观察变量的最小值和最大值,依据专业可判断人体生化指标“X”含量可能存在215.4μg/dl和292.7μg/dl的情况;此外,图5中的箱线图也未提示任何异常值。综上,本案例未发现需要删除的异常值,满足条件4。
2. 条件5判断(正态性检验)
(1) 软件操作
独立样本t检验时,需要分别考察每一组的正态性情况。
① 选择“分析”—“描述统计”—“探索”(图2)。
② 在“探索”对话框中将观察变量“X”选入右侧“因变量列表”框,将分组变量“group”选入右侧“因子列表”框(图3)。
(步骤①②同条件4判断的软件操作,故条件4和条件5判断可同时在“探索”对话框中进行)。
③ 在“图”子对话框中勾选“含检验的正态图”,取消勾选“茎叶图”,其他不变,点击“继续”(图6),再点击“探索”对话框中“确定”,则会输出结果。
(2) 结果解读
正态性检验的结果如图7和图8所示。图7显示了两种正态性检验的结果,柯尔莫哥洛夫-斯米诺夫,K-S检验和夏皮罗-威尔克正态性,S-W检验。K-S检验适用于大样本资料,本案查看S-W检验结果,两组分别为P=0.813和0.192,均>0.1,提示两组数据服从正态分布。图8-1和图8-2分别是组1和组2数据的Q-Q图,可见两组散点基本围绕对角线分布,提示两数据均呈正态性分布。综上,本案例满足条件5。关于正态性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现)。
3. 条件6判断(方差齐性检验)
(1) 软件操作
对于两独立样本t检验,SPSS软件在分析结果中会自动报告方差齐性检验的结果。以下为两独立样本t检验的方差齐性检验步骤,也是两独立样本t检验的操作步骤。
① 选择“分析”—“比较平均值”—“独立样本T检验” (图9)。
② 在“独立样本T检验”对话框中将变量“X”选入右侧“检验变量”框,将变量“group”选入右侧“分组变量”框(图10)。
③ 在“独立样本T检验”对话框中点击“定义组”后出现“定义组”子对话框,在该对话框中输入要比较的两组的组别名称。本案在“Group 1(组1)”处输入“1”,“Group 2(组2)”处输入“2”,然后点击“继续”(图11),回到“独立样本T检验”对话框后点击“确定”,则出现检验结果。
(2) 结果解读
由图4“描述性分析”表格中“标准偏差”和“方差”结果可知,正常人组和肝炎患者组的标准差分别为9.17和13.70,方差分别为84.06和187.56,两组之间标准差和方差数值看似存在差异,但还需要依据统计学检验的结果进行综合判断。
图12是两独立样本的方差齐性检验结果和t检验结果,此处先介绍方差齐性检验结果,即左侧两列“莱文方差等同性检验”结果:F=3.883,P=0.056<0.1,提示两组数据方差不齐,不满足条件6。关于方差齐性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(4/4)——方差齐性检验及SPSS实现)。
(二) 统计描述及推断
1. 软件操作
与“条件6判断(方差齐性检验)”的软件操作步骤一致。
2. 结果解读
(1) 统计描述
图13“组统计”是对两组变量“X”的统计描述结果,可见正常人组和肝炎患者组“个案数”分别为20和19,正常人组“X”的“平均值”是271.30,“标准偏差”是9.17,“标准误差平均值”是2.05。肝炎患者组“X”的“平均值”是236.22,“标准偏差”是13.70,“标准误差平均值”是3.14。从均值看两组的生化指标含量可能存在差异,但还需要依据统计学检验的结果进行判断。
(2) 统计学推断
图12是两独立样本t检验的结果,提供了在“假定等方差”和“不假定等方差”两种情况下的结果,含统计量“t(t’)”、“自由度”、“Sig.(双尾)”、“平均值差值”、“标准误差差值”及“差值95%置信区间的上限和下限”。由于本案例方差齐性检验结果显示两组方差不齐,所以此处查看第二行方差不齐时的校正t检验结果。可知肝炎患者的生化指标“X”含量平均值比正常人群低35.08μg/dl,95%CI为27.44~42.73,差异有统计学意义(t’=9.352,P<0.001)。
四、结论
本研究采用独立样本t检验判断病毒性肝炎患者和正常人生化指标含量是否存在差异。通过专业知识判断,两组数据不存在需要删除的异常值;通过绘制Q-Q图和Shapiro-Wilk检验,提示两组数据服从正态分布;通过Levene’s检验,提示两组数据间方差不齐,采用校正t检验对数据进行分析。
结果显示,正常人群和肝炎患者的生化指标含量分别为271.30±9.17μg/dl和236.22±13.70μg/dl;肝炎患者的生化指标含量平均值比正常人群低35.08μg/dl (95%CI:27.44~42.73),差异有统计学意义(t’=9.352,P<0.001)。因此,可以认为该生化指标含量在病毒性肝炎患者和正常人群之间存在统计学差异,病毒性肝炎患者的该生化指标值低于正常人群。
五、分析小技巧
- 在进行独立样本t检验时,正态性检验应分组进行,而不是对全部数据进行一次正态性检验。
- t检验对数据的非正态性有一定的耐受能力,如果资料只是稍微偏态,结果仍然稳健。
- 独立样本t检验时对两组数据之间的方差齐性要求较为严格,与数据违反正态性相比,方差不齐对结论的影响较大。
- 如果数据对条件1至条件5都满足,仅不满足方差齐,此时可使用校正t检验(Welch’s t检验)。但如果数据的方差相差太大,最好使用非参数检验(Mann-Whitney U检验)。如果数据正态性和方差齐性都不满足,最好使用非参数检验(Mann-Whitney U检验)。
- 如果两组数据之间方差的差异无统计学意义,此时student’s t检验比Welch’s t检验具有更高的统计学检验效能(发生第II类错误的概率更低),如果两组数据方差差异较大,此时Welch’s t检验发生第II类错误的概率更低,结果更为可信。
- 与数据违反正态性相比,方差不齐对结论的影响较大,所以主要依靠假设检验进行考察。然而“方差齐性检验(Levene’s)”的结果易受到样本量的影响,并不是很稳定。当样本量较大时,倾向于得出P值低于检验水准的结论,尽管可能组别之间的方差差异并不大;反之,当样本量较小时,尽管组别之间的方差差异可能较大,但倾向于得出P值高于检验水准的结论。因此,以统计描述的形式报告各组数据的具体标准差和方差,并将其纳入综合考量是必要的。