关键词:SPSS; t检验; 单样本t检验; 适用条件
一、案例介绍
某医生测量了52名特殊作业成年男性工人的血红蛋白含量。假设已知正常成年男性血红蛋白含量均数为145 g/L,试问特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较研究样本与已知均数是否相同,即判断研究对象的血红蛋白含量均值与已知血红蛋白含量均值145 g/L之间是否有差异。针对这种情况可以使用单样本t检验。但需要满足四个条件:
条件1:观察变量为连续变量。本研究中的血红蛋白为连续变量,该条件满足。
条件2:观测值相互独立。本研究中各研究对象的观测值都是独立的,不存在互相干扰的情况,该条件满足。
条件3:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件4:观察变量为正态(或近似正态)分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(异常值判断)
(1) 软件操作
① 选择“分析”—“描述统计”—“探索”(图2)。
② 在“探索”对话框中将观察变量“Hb”选入右侧“因变量列表”框,点击“确定”(图3)。
(2) 结果解读
异常值判断结果如图4和图5所示。图4是对该观察变量基本情况的描述,其中列出了观察变量的最小值和最大值分别为89 g/L和165 g/L,依据专业可判断人体血红蛋白含量均可能存在此情况。
图5是反应数据分布情况的箱线图,其中箱体中线表示观察变量的中位数,箱体上下边线分别表示上四分位数和下四分位数,箱体长度即箱距为四分位距。箱体最上方和最下方的横向表示统计学中认为的正常范围内的最大值 (上四分位数+1.5倍四分位距)和最小值 (下四分位数-1.5倍四分位距)。圆点(°)表示大于或小于1.5倍箱距的异常值,星号(*)表示大于或小于3倍箱距的极端值。圆点或星号旁边的数字是数据视图窗口中最左侧的蓝色数字列,即该数值位于表格中的行数。
本结果中的箱线图提示第48位和第3位研究对象的数据值超出了1.5倍箱距,但无大于或小于3倍箱距的极端值。查看数据表可以发现第3位和第48位研究对象的数值分别为89 g/L和165 g/L,分别是上述统计结果中最小值和最大值,同样依据专业可判定该值可以保留。综上,本案例未发现需要处理的异常值,满足条件3。
2. 条件4判断(正态性检验)
(1) 软件操作
① 选择“分析”—“描述统计”—“探索”。
② 在“探索”对话框中将观察变量“Hb”选入右侧“因变量列表”框。
(步骤①②同条件3判断操作,故条件3和条件4判断可同时在“探索”对话框中进行)。
③ 在“图”子对话框中勾选“含检验的正态图”,取消勾选“茎叶图” (图6),其他不变,点击“继续”,点击“确定”,则会输出正态性检验的结果。
(2) 结果解读
正态性检验的结果如图7和图8所示。图7为“正态性检验”表格,显示了两种正态性检验结果:柯尔莫哥洛夫-斯米诺夫,K-S检验和夏皮罗-威尔克正态性,S-W检验。K-S检验适用于大样本资料,本案查看S-W检验结果,P=0.179>0.1,提示数据服从正态分布;图8 Q-Q图上散点基本围绕对角线分布,也提示数据呈正态分布。综上,本案例满足条件4。关于正态性检验的更多内容请阅读医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现。
(二) 统计描述及推断
1. 软件操作
① 选择“分析”—“比较平均值”—“单样本T检验” (图9)。
② 在“单样本T检验”对话框中将观察变量“Hb”选入右侧“检验变量”框,在“检验值”输入对比的总体均值145,点击“确定”(图10)。
2. 结果解读
(1) 统计描述
结果见图11和图12。图11“单样本统计”表格中提供了研究案例的基本信息:“个案数”、“平均数”、“标准偏差”和“标准误差平均值”。可知样本人群的血红蛋白含量为128.31±17.60 g/L。
(2) 统计学推断
图12“单样本检验”表格中提供了本次检验中统计推断的统计量“t”、“自由度”、“Sig. (双尾)”、“平均值差值”及“差值95%置信区间的上限和下限”。
可知样本人群的血红蛋白含量平均值比正常人群低16.69g/L,95%CI为-21.59~-11.79;差异有统计学意义(t=-6.840,P<0.001)。
四、结论
本研究采用单样本t检验判断某特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异。通过专业知识判断,数据不存在需要删除的异常值;通过绘制Q-Q图和Shapiro-Wilk检验,提示数据服从正态分布。
结果显示,某特殊作业成年男性人群的血红蛋白含量为128.31±17.60g/L,与正常成年男性人群血红蛋白均值145g/L的差值为16.69 (95%CI:-21.59~-11.79)。单样本t检验提示,样本人群的血红蛋白含量低于正常成年男性(t=-6.840,P<0.001)。本研究结果表明某特殊作业成年男性工人的血红蛋白含量低于正常成年男性。
五、分析小技巧
(一) 异常值的检测
异常值的检测有多种方法,包括:
- 专业判断。基于专业角度判断数值是否为异常值往往是最基础且可靠的方法,很多通过统计学方法检测提示的异常值,最终也需要从专业角度衡量是否为真正的异常值;但在实际研究过程中,一些变量指标难以从专业角度进行衡量是否异常。
- 图形法,包括直方图法、箱式图法等。在直方图上,位于图形两端,并远离均数的数值,一般提示可能存在异常;在箱式图上位于上下四分位数±1.5倍四分位间距的数值,一般提示可能存在异常。
- 统计描述法。一般位于均数±3倍标准差之外的数据,提示可能存在异常。
- 马氏距离法,常用于多变量异常值的检测。
(二) 异常值的处理
对于异常值的处理需要注意:
- 异常值产生的原因不明之前,不应简单决定其取舍,通过图形法和统计描述法检测出的异常值,最好再从专业角度进行判断是否为真正的异常值。
- 尽可能核对原始记录,如果确认数据有逻辑错误,又无法纠正,可直接删除。
- 如果数据无明显逻辑错误,可将数据删除前后各做一次分析,若结果不矛盾,则不予删除;若结果矛盾且需要删除数据时,必须给予充分合理的解释。
- 如果采用其他数值替换异常值,最好对替换前后的数据各做一次分析,并对结果进行比较。