缺失值填补——多重填补

发布于 2022年10月14日 星期五 21:50:24 浏览:6144
原创不易,转载请注明来源,感谢!
附件下载:
多重填补.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

多重填补(Multiple Imputation, MI)是复杂填补方法中的一种,本文实例演示在SPSS软件中实现多重填补的操作步骤。

关键词:缺失值; 缺失值类型; 缺失值填补; 多重填补; 复杂填补

一、案例介绍

此处仍以缺失情况基本分析(链接)一文中生成的缺失数据为例。调查了33名研究对象的性别(gender)、年龄(age)和某生化指标(X),分析性别和年龄对生化指标浓度是否有影响?人为生成一个有缺失值(生化指标缺失10个个案,并且都是在高年龄组缺失)的数据(见图1),然后再进行填补分析。本案例数据可在“附件下载”处下载。

图1

二、回归算法填补

(一) 软件操作

选择“分析”—“多重插补”—“插补缺失数据”(图2)。

图2

将用于缺失值填补的变量选入“模型中的变量”,“插补数”可以根据情况进行设置,默认为“5”。“插补数据的位置”中可以对插补后的数据集命名(图3)。

图3

“方法”模块中,默认“自动”,也可以自定义选择,如数据集较大时可以使用蒙特卡洛模拟(图4)。

图4

“约束”模块中,可以对填补模型加以微调。“重新扫描数据”可以在“变量摘要”中检查变量缺失情况;“定义约束”中可以设置某些变量只用于预测或只用于插补(图5)。

图5

(二) 效果比较

通过多种填补后可见生成了一个名称为“多重填补”的新数据集,可在“附件下载”处下载比较。

该数据集中包括1个原始数据和5个新生成的数据。在数据集的右上方点击可以依次查看每个数据集的情况。此时菜单中很多统计分析过程的图标也会改变为,如交叉表、线性回归等都是如此,表示该过程可以直接使用多重填补后的数据进行分析。

通过对多重填补后的数据集进行分析,只要图表为的数据集均会自动利用该数据集进行计算。通过线性回归分析结果见图6。

图6

将多重填补的结果和其他方法的结果对比见表1。

表1

通过对比可知,多重填补结果只比“序列平均值”效果好,比其他几种方法似乎还要差一些,这说明多重填补算法虽然在理论上比较完善,但实际应用过程中有时还存在许多问题。这再次提示缺失值处理是一个非常复杂的过程,需要结合专业、经验、方法学加以综合考虑,尤其是不要轻信单一填补后的结果,有时根据专业知识人工填补甚至不填补的结果反而更接近真实情况。

End
文章目录 沉浸式阅读