负二项回归分析(Negative Binomial Regression Analysis)——SPSS软件实现

2022年1月6日星期四发布于 08:09:51 浏览：16558

原创不易，转载请注明来源，感谢！

附件下载：

负二项回归分析.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

在前面文章中介绍了负二项回归分析(Negative Binomial Regression Analysis)的假设检验理论，本篇文章将实例演示在SPSS软件中实现负二项回归分析的操作步骤。

关键词：SPSS; 负二项回归; 过离散

一、案例介绍

某市抽样调查了146名学生某一学年的缺课天数，同时收集了他们的种族、年龄、性别和学习状况等信息，拟探究上述因素对学生缺课天数的影响。

分别创建代表患者种族、年龄、性别和学习状况的分类变量“Race”(1=汉族，2=少数民族)、“Sex(1=男，2=女)、“Age”(1=小于12岁，2=小于10岁，3=小于8岁，4=小于6岁)和“Study”(1=良好，2=一般)，以上变量测量尺度均设为“Nominal(分类变量)”；创建代表缺课天数的计数变量“Days”，测量尺度设为“Scale(计量资料)”。部分数据见图1。本文案例可从“附件下载”处下载。

二、问题分析

本案例的分析目的是研究民族、年龄、性别、学习状况等对学生年缺课天数的影响。因变量为计数资料，服从Poisson分布或负二项分布，可以尝试使用负二项回归分析。但需要满足5个条件：

条件1：因变量为计数变量。本案例的因变量为年缺课天数，为计数变量，满足条件。

条件2：至少有1 个自变量，可以是分类变量，也可以是连续变量。本案例有民族、年龄、性别、学习状况共4个自变量，满足该条件。

条件3：各观测行间是非独立的，事件的发生有空间聚集现象；或因变量存在过离散现象，即方差远大于均数。由研究设计可知，学生缺课天数无空间聚集现象，但过离散现象可能存在，可通过软件分析后判断。

条件4：自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件5：自变量不存在显著的异常值。由于本研究所分析的自变量为分类变量，暂不用查看异常值。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(过离散检验)

对于过离散现象的判断，需要先拟合Poisson回归。若Poisson回归中的过离散判断指标(Chi-square Value/df)值>3，则认为计数因变量存在过离散现象。

(1) 软件操作

① 选择“分析”—“广义线性模型”—“广义线性模型...”(图2)。

② 在“广义线性模型”对话框中选择“模型类型”，在该页面下的“计数”部分选择“泊松对数线性”(图3)。

③ 在“广义线性模型”对话框中选择“响应”，在该页面下将变量“Days”选入右侧“因变量”框中(图4)。

④ 在“广义线性模型”对话框中选择“预测变量”，在该页面下将变量“Race”、“Sex”、“Age”、和“Study”选入右侧“因子”框中(图5)。点击下方的“选项”，在“选项”页面的“因子类别顺序”下选择“降序”(图6)，然后点击“继续”回到主对话框。

⑤ 在“广义线性模型”对话框中选择“模型”，把页面中间的构建项类型选为“主效应”，然后将左侧变量“Race”、“Sex”、“Age”、和“Study”选入右侧“模型”框中，然后点击“确定”(图7)。

(2) 结果解读

由图8中的“皮尔逊卡方”的“值/自由度”可知，该值为13.167>3，表示计数因变量存在过离散现象，数据满足条件3.

2. 设置哑变量

容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。SPSS的广义线性模型不能提供这两个指标，可以通过线性回归来获得。进行线性回归的共线性诊断前需要对多分类变量设置哑变量，以下将对多分类变量“Age”进行哑变量设置。

(1) 软件操作

① 点击“转换”—“创建虚变量”(图33)(图9)。

② 在“创建虚变量”对话框中将变量“Age”选入右侧“针对下列变量创建虚变量”框中，然后在“创建主效应虚拟变量”下的“根名称-每个选定变量各一个”中输入虚拟变量的名称“Age”。点击“确定”，完成虚拟变量设置。

(2) 结果解读

上述步骤运行结束后可以在数据编辑页面看到新生成的4个哑变量(图11)，随后就可以进行多重共线性诊断。

3. 条件5判断(多重共线性诊断)

(1) 软件操作

① 点击“分析”—“回归”—“线性”(图12)。

② 将变量“Days”选入“因变量”，变量“Race”、“Sex”和“Study”都选入“自变量”(图13)。然后点击“下一个”。在图14中将“Age_2”、“Age_3”和“Age_4”三个虚拟变量同时选入右侧“自变量”，此时表示以“Age_1”为参照水平；“方法”选择“输入”，即哑变量设置的同进同出原则。

③ 点击“统计”，在“统计”页面中勾选“共线性诊断”(图15)，点击“继续”后回到主对话框，点击“确定”。

(2) 结果解读

如果“Tolerance(容忍度)”小于0.1或“VIF(方差膨胀因子)”大于10，则提示有严重共线性存在。本例中(图16)，容忍度均远大于0.1，方差膨胀因子均小于10，提示自变量之间不存在严重多重共线性。如果数据存在严重多重共线性，需用复杂的方法进行处理，其中最简单的是剔除引起共线性的因素之一，剔除哪一个因素可以基于理论依据。满足条件5。

(二) 统计描述及推断

1. 软件操作

① 选择“分析”—“广义线性模型”—“广义线性模型...”(图2)。

② 在“广义线性模型”对话框中选择“模型类型”，在该页面下的“计数”部分选择“负二项式与对数联接”(图17)。

③ 在“广义线性模型”对话框中选择“响应”，在该页面下将变量“Days”选入右侧“因变量”框中(图18)。

④ 在“广义线性模型”对话框中选择“预测变量”，在该页面下将变量“Race”、“Sex”、“Study”和“Age_2”、“Age_3”、“Age_4”三个虚拟变量同时选入右侧“因子”框中(图19)。点击下方的“选项”，在“选项”页面的“因子类别顺序”下选择“降序”(图6)，然后点击“继续”回到主对话框。

⑤ 在“广义线性模型”对话框中选择“模型”，把页面中间的构建项类型选为“主效应”，然后将左侧变量“Race”、“Sex”、“Study”和“Age_2”、“Age_3”、“Age_4”三个虚拟变量同时选入右侧“模型”框中(图20)。

⑥ 在“广义线性模型”对话框中选择“估算”，在该页面下的“协方差矩阵”部分选中“稳健估算量”，其他保持默认不变，如图21所示。

⑦ 在“广义线性模型”对话框中选择“统计”，在该页面下的“打印”部分选中“参数估算值”下的“包括指数参数估计”，其他保持默认不变，如图22所示，然后点击“确定”。

2. 结果解读

图23和图24分别是对模型中的分类变量和连续变量的统计描述结果。

由图25“Tests of Model Effects(模型效应检验)”的结果可知，“Race”和“Age_3”在模型中有统计学意义。

由图26“参数估算值”可知，少数民族学生缺课的发生率是汉族学生的0.565倍(IRR=0.565, 95%CI：0.425-0.752, P<0.001)，关联有统计学意义。年龄6-8岁与10-12岁者相比，缺课的发生率下降了0.553倍(IRR=0.447，95%CI：0.284-0.703，P<0.001)，关联有统计学意义。

四、结论

本研究采用负二项回归探究民族、性别、年龄和学习状态对学生年缺课天数的影响。通过Poisson回归的过离散指标可知，因变量存在过离散现象；通过共线性诊断可知，变量间不存在严重的多重共线性，满足负二项回归的条件。

由负二项回归分析的结果可知，民族和年龄在模型中有统计学意义，与学生年缺课天数相关。其中，少数民族学生缺课的发生率是汉族学生的0.565倍(IRR=0.565, 95%：0.425-0.752, P<0.001)；年龄6-8岁的与10-12岁的相比，缺课的发生率下降了0.553倍(IRR=0.447, 95%CI：0.275-0.725, P<0.001)。

五、知识小贴士

（一）Poisson回归与负二项回归

Poisson回归的应用条件之一是计数因变量服从Poisson分布，即因变量的平均值等于方差。但，很多事件的发生是非独立的，如传染性疾病、地方病、遗传病等，单位时间/空间内事件发生频数的方差远远大于平均值，即存在过离散现象。若用Poisson回归来分析这些事件的影响因素，会导致模型参数估计值的标准误偏小，参数检验的假阳性率增加。这时候宜选择负二项回归进行分析。

（二）与线性回归的重要区别

①因变量的变量类型：Poisson回归/负二项回归的因变量为单位时间/空间发生的事件数，为服从Poisson分布或负二项分布计数资料；一般线性回归的因变量为服从正态（高斯）分布计量资料，如BMI、尿量等。

②在广义线性模型中，Poisson回归/负二项回归的连接函数为ln，即对方程左侧取对数；而线性回归的为恒等函数，不需要任何变换，直接等于右侧的线性组合。

（三）IRR的含义

IRR，为Incidence rate ratio的缩写，译为发病率的比值，是暴露组与非暴露组事件发生率的比值。当IRR>1时，说明暴露增加了事件发生的可能性；当IRR=1，说明暴露与事件的发生无关联；当IRR<1，说明暴露降低了事件发生的可能性。

我要纠错

End

泊松回归分析(Poisson Regression Analysis)——SPSS软件实现