缺失值填补——多重填补

2022年10月14日星期五发布于 21:50:24 浏览：9227

原创不易，转载请注明来源，感谢！

附件下载：

多重填补.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

多重填补(Multiple Imputation, MI)是复杂填补方法中的一种，本文实例演示在SPSS软件中实现多重填补的操作步骤。

关键词：缺失值; 缺失值类型; 缺失值填补; 多重填补; 复杂填补

一、案例介绍

此处仍以缺失情况基本分析(链接)一文中生成的缺失数据为例。调查了33名研究对象的性别(gender)、年龄(age)和某生化指标(X)，分析性别和年龄对生化指标浓度是否有影响？人为生成一个有缺失值(生化指标缺失10个个案，并且都是在高年龄组缺失)的数据(见图1)，然后再进行填补分析。本案例数据可在“附件下载”处下载。

二、回归算法填补

(一) 软件操作

选择“分析”—“多重插补”—“插补缺失数据”(图2)。

将用于缺失值填补的变量选入“模型中的变量”，“插补数”可以根据情况进行设置，默认为“5”。“插补数据的位置”中可以对插补后的数据集命名(图3)。

“方法”模块中，默认“自动”，也可以自定义选择，如数据集较大时可以使用蒙特卡洛模拟(图4)。

“约束”模块中，可以对填补模型加以微调。“重新扫描数据”可以在“变量摘要”中检查变量缺失情况；“定义约束”中可以设置某些变量只用于预测或只用于插补(图5)。

(二) 效果比较

通过多种填补后可见生成了一个名称为“多重填补”的新数据集，可在“附件下载”处下载比较。

该数据集中包括1个原始数据和5个新生成的数据。在数据集的右上方点击可以依次查看每个数据集的情况。此时菜单中很多统计分析过程的图标也会改变为，如交叉表、线性回归等都是如此，表示该过程可以直接使用多重填补后的数据进行分析。

通过对多重填补后的数据集进行分析，只要图表为的数据集均会自动利用该数据集进行计算。通过线性回归分析结果见图6。

将多重填补的结果和其他方法的结果对比见表1。

通过对比可知，多重填补结果只比“序列平均值”效果好，比其他几种方法似乎还要差一些，这说明多重填补算法虽然在理论上比较完善，但实际应用过程中有时还存在许多问题。这再次提示缺失值处理是一个非常复杂的过程，需要结合专业、经验、方法学加以综合考虑，尤其是不要轻信单一填补后的结果，有时根据专业知识人工填补甚至不填补的结果反而更接近真实情况。

我要纠错

End

缺失值填补——期望最大法(EM算法)填补