关键词:MedCalc; t检验; 单样本t检验
一、案例介绍
某医生测量了52名特殊作业成年男性工人的血红蛋白含量。假设已知正常成年男性血红蛋白含量均数为145 g/L,试问特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较研究样本与已知均数是否相同。针对这种情况可以使用单样本t检验,需要满足4个条件:
条件1:观察变量为连续变量。本研究中的血红蛋白为连续变量,该条件满足。
条件2:观测值相互独立。本研究中各研究对象的观测值都是独立的,不存在互相干扰的情况,该条件满足。
条件3:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件4:观察变量为正态或近似正态分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
对于本案例数据,条件1和条件2均满足,下面判断条件3和条件4。
1. 异常值判断(条件3)
(1) 软件操作
选择“统计”—“异常值检测”(图2),进入“异常值检测”界面(图3),“变量”下选择变量“Hb”;“异常值检测方法”下勾选“Grubbs-两侧”“生成的ESD检验(‘检验最大量的异常值’中输入10)”“Tukey”。
(2) 结果解读
图4提示了两个异常值为89和165 (本案例中的最小值和最大值),根据专业知识可判断无需进行特殊处理。
点击图4右下角的“盒形图”,进入“盒形图”页面(图5),“变量”下选择“Hb”,“选项”中勾选“标绘所有数据”。
图6也提示了两个异常值,将鼠标光标移动至异常值上,可定位其案例号,发现其就是本案例中的最小值(89)和最大值(165)。
2. 正态性检验(条件4)
(1) 软件操作
选择“统计”—“分布图”—“正态图”(图7)。进入“正态图”界面(图8),“变量”下选择变量“Hb”,“选项”中勾选“Q-Q图”,“检验正态分布”下选择“Shapiro-Wilk检验 (夏皮罗-威尔克正态性检验,S-W检验)”。
选择“统计”—“汇总统计”(图9)。进入“汇总统计”界面(图10),“变量”下选择变量“Hb”,“检验正态分布”下选择“Shapiro-Wilk检验 (夏皮罗-威尔克正态性检验,S-W检验)”。
(2) 结果解读
正态性检验的结果如图11和图12所示。图11 Q-Q图上散点基本围绕对角线分布,提示数据呈正态分布。图12中Shapiro-Wilk检验 (夏皮罗-威尔克正态性,S-W检验)结果,P=0.1789>0.1,提示数据服从正态分布;综上,本案例满足条件4。关于正态性检验的更多内容请阅读(医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现)。
(二) 统计描述及推断
1. 软件操作
选择“统计”—“T检验”—“单样本t检验” (图13),进入“单样本t检验”界面(图14),“变量”下选择 “Hb”,检验值中输入“145”。
2. 结果解读
(1) 统计描述
图15为统计学描述结果,可知从事特殊作业的男性工人血红蛋白含量的平均值和标准差为128.31±17.60。
(2) 统计推断
图16为单样本t检验结果。可知,从事特殊作业的男性工人血红蛋白含量的平均值比正常成年男性的血红蛋白含量的平均值低16.70g/L,95%CI为-21.59~-11.79,差异有统计学意义(t=6.84,P<0.0001)。
四、结论
本研究采用单样本t检验判断某特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异。通过专业知识判断,数据不存在需要处理的异常值;通过绘制Q-Q图和Shapiro-Wilk检验,提示数据服从正态分布。
结果显示,某特殊作业成年男性人群的血红蛋白含量为(128.31±17.60)g/L,与正常成年男性人群血红蛋白均值145 g/L的差值为16.69 (95%CI为-21.59~-11.79)。单样本t检验提示,样本人群的血红蛋白含量低于正常成年男性(t=-6.840,P<0.001)。本研究结果表明某特殊作业成年男性工人的血红蛋白含量低于正常成年男性。
五、分析小技巧
1. 异常值的判断
异常值的判断,基于专业知识判断数值是否异常往往是最基础且可靠的方法。实际应用中,一些指标难以从专业角度进行衡量,则需要参考统计学处理结果;此外,虽然有时统计学结果提示异常,但最终也需要从专业角度进行衡量判断。常用的统计学方法包括图形法、统计描述法和马氏距离法等。
- 图形法,包括直方图法、箱式图法等。直方图中,位于图形两端且远离均数的数值,提示可能存在异常;箱式图中,位于上下四分位数±1.5倍四分位间距的数值,提示可能存在异常。
- 统计描述法。一般位于均数±3倍标准差之外的数据,提示可能存在异常。
- 马氏距离法,常用于多变量异常值的检测。
2. 异常值处理中的注意事项
- 异常值产生的原因不明之前,不应简单决定其取舍,应利用多种方法进行综合判断。
- 通过图形法和统计描述法检测出的异常值,最好再从专业角度进行判断是否为真正的异常值。
- 尽可能核对原始数据,如果确认数据有逻辑错误,又无法纠正,可直接删除。
- 若数据无明显逻辑错误,可将数据删除前后各做一次分析,若结果不矛盾,则不予删除;若结果矛盾且需要删除数据时,必须给予充分合理的解释。
- 若采用其他数值替换异常值,最好对替换前后的数据各做一次分析,并对结果进行比较。