关键词:Stata; t检验; 单样本t检验; 适用条件
一、案例介绍
某医生测量了52名特殊作业成年男性工人的血红蛋白含量,即判断研究对象的血红蛋白含量均值与已知血红蛋白含量均值145g/L之间是否有差异。假设已知正常成年男性血红蛋白含量均数为145g/L,试问该特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异?部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是比较研究样本与已知均数是否相同。针对这种情况可以使用单样本t检验。但需要满足四个条件:
条件1:观察变量为连续变量。本研究中的血红蛋白为连续变量,该条件满足。
条件2:观察变量相互独立。本研究中各研究对象的观察变量都是独立的,不存在互相干扰的情况,该条件满足。
条件3:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件4:观察变量为(近似)正态分布,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(异常值判断)
(1) 软件操作
①*计算z得分*
summarize hb
gen z=(hb-r(mean))/r(sd) summarize z
②*绘制箱式图*
graph box hb
(2) 结果解读
图2中,列出了观察变量的“Min(最小值)”和“Max(最大值)”,依据专业可判断人体血红蛋白含量均可能存在89g/L和165g/L的情况;图3中计算z得分位于-2.234至2.085之间,绝对值均小于3,表明hb所有观测值距离均值都在3个标准差内。
图4是反应数据分布情况的箱线图,其中箱体中线表示观察变量的中位数,箱体上下边线分别表示上四分位数和下四分位数,箱体长度即箱距为四分位距。箱体最上方和最下方的横向表示统计学中认为的正常范围内的最大值 (上四分位数+1.5倍四分位距)和最小值 (下四分位数-1.5倍四分位距)。圆点(•)表示大于或小于1.5倍箱距的异常值。本结果中的箱线图提示存在两个数据值超出了1.5倍箱距,分别是上述统计结果中最小值和最大值,同样依据专业可判定该值可以保留。
综上,本案例未发现需要删除的异常值,满足条件3。
2. 条件4判断(正态性检验)
(1) 软件操作
①*Shapiro-Wilk检验*
swilk hb
②*绘制分位正态图*
qnorm hb
(2) 结果解读
图5的正态性检验结果显示P=0.193>0.1,提示数据满足正态分布;此外图6分位正态图上散点基本围绕对角线分布,也提示数据呈正态分布。综上,本案例满足条件4。关于正态性检验的更多内容请阅读医学统计学核心概念及重要假设检验的软件实现(2/4) ——正态性假设检验的SPSS实现。
(二) 统计描述及推断
1. 软件操作
*单样本t检验*
gen d=hb-145ttest d=0
2. 结果解读
从图7“One-sample t test(单样本t检验)”结果可知样本人群的血红蛋白含量平均值比正常人群低16.692g/L,95%CI为-21.591~-11.793;差异有统计学意义(t=-6.840,P<0.001)。
四、结论
本案例采用单样本t检验判断特殊作业成年男性工人的血红蛋白含量是否与正常成年男性有差异。通过专业知识判断,数据不存在需要删除的异常值;通过绘制分位正态图和Shapiro-Wilk检验,提示数据服从正态分布。
结果显示,研究人群的血红蛋白含量为128.308±17.597g/L,与正常成年男性人群血红蛋白均值145g/L的差值为-16.692 (95%CI:-21.591~-11.793)。单样本t检验提示,特殊作业成年男性工人的血红蛋白含量低于正常成年男性, 差异有统计学意义(t=-6.840,P<0.001)。