关键词:MedCalc; 异常值检测
一、异常值简介
异常值通常有两种情况:一是测量值随机波动的极度表现,即极值,它虽然与其余数据相差较远,但仍然处于统计上所允许的合理误差范围之内,这时的异常值称为局内值;二是与其余数据不属于同一个总体的异常值,称为局外值。
在统计分析中,若测量资料中混有异常值,则可能会歪曲试验结果,将其舍弃,可使结果更符合实际情况。值得注意的是,若将本来不是异常值的测量值主观地作为异常值舍弃,则会导致研究结果的虚假。
二、案例介绍
某研究者使用单样本t检验比较特殊作业成年男性工人血红蛋白与正常成年男性血红蛋白含量均数是否相等。研究过程中测量了52名特殊作业成年男性工人的血红蛋白含量,试分析这52名特殊作业成年男性工人的血红蛋白含量值是否存在异常值,部分数据见图1。案例可从“附件下载”处下载。
三、案例分析
上述案例为单样本t检验,欲比较特殊作业成年男性工人血红蛋白与正常成年男性血红蛋白含量均数是否相等,需要满足无异常值条件。根据测量的数据,可通过异常值检测来判断是否满足上述这项条件。
四、软件操作
(一) 进入“异常值检测”主对话框
选择“统计”—“异常值检测”(图2),可进入“异常值检测”主对话框(图3)。
(二)设置“异常值检测”分析参数(图3)
- 变量:通过下拉菜单选择欲分析的变量。本例选择 “Hb”
- 异常值检测方法:“Grubbs-左侧”表示进行Grubbs检验,只检查最小值;“Grubbs-右侧”表示进行Grubbs检验,只检查最大值;“Grubbs-双侧”表示进行Grubbs检验,检查两侧的最极端值;“生成的ESD检验”表示广义极值学生化分布离差检验可一次检测多个异常值,“检测最大量的异常值”后可输入最多可检测的异常值数,默认为10;“Tukey”表示进行Tukey检验,可检出两侧多个异常值。本例选择“Grubbs-双侧”、“生成的ESD检验”及“Tukey”3种方法。
- Alpha级:默认0.05
- 检验正态分布:默认Shapiro-Wilk检验
(三)绘制盒形图
可通过单击异常值检测结果对话框右下角的“盒形图” (图6),打开“盒形图”对话框(图4)
- 变量:选择“Hb”
- 选项:勾选“标绘所有数据”
- 图表方向:本例选择“垂直”
五、结果解读
图5为52名特殊作业成年男性工人血红蛋白基本统计量情况。其最小值为13.0000g/L,最大值为165.0000 g/L,平均值为126.0577 g/L,中位数为127.5000g/L,Shapiro-Wilk检验中W=0.8416,P<0.001,根据α=0.1的检验水准,拒绝正态性(正态性检验水准的设置,详细见医学统计学核心概念及重要假设检验的软件实现(2/4)——正态性假设检验的SPSS实现)
图6为异常值检测的结果。本例中采用了3种方法检测异常值,Grubbs-双侧、生成的ESD检验和Tukey检验均检出一个相同的异常值13,但Tukey检验未发现外部值。上述异常值与我们的常识明显不相符,需重点关注,并检查原始资料,确定是否因数据输入错误造成。
图7为特殊作业成年男性工人血红蛋白盒形图,位于盒形图的外的红色方点为上述3种检验方法检测出的异常值。鼠标悬停在其对应点上,可显示该点所在的个案号,该异常值对应案例34的数据。经与原始数据核对,发现案例34的血红蛋白13是因输入错误导致,其实际测量数值应为130。
六、知识小贴士
(一) 异常值的检测方法
- 专业判断:基于专业角度判断数值是否为异常值往往是最基础且可靠的方法,很多通过统计学方法检测提示的异常值,最终也需要从专业角度衡量是否为真正的异常值;但在实际研究过程中,一些变量指标难以从专业角度进行衡量是否异常。
- 图形法:包括直方图法、箱式图法等。在直方图上,位于图形两端,并远离均数的数值,提示可能存在异常;在箱式图上位于上下四分位数±1.5倍四分位间距的数值,提示可能存在异常。
- 统计描述法:一般位于均数±3倍标准差之外的数据,提示可能存在异常。
- 马氏距离法:常用于多变量异常值的检测。
(二) 异常值处理中的注意事项
- 异常值产生的原因不明之前,不应简单决定其取舍,通过图形法和统计描述法检测出的异常值,最好再从专业角度进行判断是否为真正的异常值。
- 尽可能核对原始记录,如果确认数据有逻辑错误,又无法纠正,可直接删除。
- 若数据无明显逻辑错误,可将数据删除前后各做一次分析,若结果不矛盾,则不予删除;若结果矛盾且需要删除数据时,必须给予充分合理的解释。
- 若采用其他数值替换异常值,最好对替换前后的数据各做一次分析,并对结果进行比较。