负二项回归分析(Negative Binomial Regression Analysis)——SPSS软件实现

发布于 2022年1月6日 星期四 08:09:51 浏览:12632
原创不易,转载请注明来源,感谢!
附件下载:
负二项回归分析.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了负二项回归分析(Negative Binomial Regression Analysis)的假设检验理论,本篇文章将实例演示在SPSS软件中实现负二项回归分析的操作步骤。

关键词:SPSS; 负二项回归; 过离散

一、案例介绍

某市抽样调查了146名学生某一学年的缺课天数,同时收集了他们的种族、年龄、性别和学习状况等信息,拟探究上述因素对学生缺课天数的影响。

分别创建代表患者种族、年龄、性别和学习状况的分类变量“Race”(1=汉族,2=少数民族)、“Sex(1=男,2=女)、“Age”(1=小于12岁,2=小于10岁,3=小于8岁,4=小于6岁)和“Study”(1=良好,2=一般),以上变量测量尺度均设为“Nominal(分类变量)”;创建代表缺课天数的计数变量“Days”,测量尺度设为“Scale(计量资料)”。部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是研究民族、年龄、性别、学习状况等对学生年缺课天数的影响。因变量为计数资料,服从Poisson分布或负二项分布,可以尝试使用负二项回归分析。但需要满足5个条件:

条件1:因变量为计数变量。本案例的因变量为年缺课天数,为计数变量,满足条件。

条件2:至少有1 个自变量,可以是分类变量,也可以是连续变量。本案例有民族、年龄、性别、学习状况共4个自变量,满足该条件。

条件3:各观测行间是非独立的,事件的发生有空间聚集现象;或因变量存在过离散现象,即方差远大于均数。由研究设计可知,学生缺课天数无空间聚集现象,但过离散现象可能存在,可通过软件分析后判断。

条件4:自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件5:自变量不存在显著的异常值。由于本研究所分析的自变量为分类变量,暂不用查看异常值。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(过离散检验)

对于过离散现象的判断,需要先拟合Poisson回归。若Poisson回归中的过离散判断指标(Chi-square Value/df)值>3,则认为计数因变量存在过离散现象。

(1) 软件操作

① 选择“分析”—“广义线性模型”—“广义线性模型...”(图2)。

图2

② 在“广义线性模型”对话框中选择“模型类型”,在该页面下的“计数”部分选择“泊松对数线性”(图3)。

图3

③ 在“广义线性模型”对话框中选择“响应”,在该页面下将变量“Days”选入右侧“因变量”框中(图4)。

图4

④ 在“广义线性模型”对话框中选择“预测变量”,在该页面下将变量“Race”、“Sex”、“Age”、和“Study”选入右侧“因子”框中(图5)。点击下方的“选项”,在“选项”页面的“因子类别顺序”下选择“降序”(图6),然后点击“继续”回到主对话框。

图5
图6

⑤ 在“广义线性模型”对话框中选择“模型”,把页面中间的构建项类型选为“主效应”,然后将左侧变量“Race”、“Sex”、“Age”、和“Study”选入右侧“模型”框中,然后点击“确定”(图7)。

图7
(2) 结果解读

由图8中的“皮尔逊卡方”的“值/自由度”可知,该值为13.167>3,表示计数因变量存在过离散现象,数据满足条件3.

图8

2. 设置哑变量

容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。SPSS的广义线性模型不能提供这两个指标,可以通过线性回归来获得。进行线性回归的共线性诊断前需要对多分类变量设置哑变量,以下将对多分类变量“Age”进行哑变量设置。

(1) 软件操作

① 点击“转换”—“创建虚变量”(图33)(图9)。

图9

② 在“创建虚变量”对话框中将变量“Age”选入右侧“针对下列变量创建虚变量”框中,然后在“创建主效应虚拟变量”下的“根名称-每个选定变量各一个”中输入虚拟变量的名称“Age”。点击“确定”,完成虚拟变量设置。

图10
(2) 结果解读

上述步骤运行结束后可以在数据编辑页面看到新生成的4个哑变量(图11),随后就可以进行多重共线性诊断。

图11

3. 条件5判断(多重共线性诊断)

(1) 软件操作

① 点击“分析”—“回归”—“线性”(图12)。

图12

② 将变量“Days”选入“因变量”,变量“Race”、“Sex”和“Study”都选入“自变量”(图13)。然后点击“下一个”。在图14中将“Age_2”、“Age_3”和“Age_4”三个虚拟变量同时选入右侧“自变量”,此时表示以“Age_1”为参照水平;“方法”选择“输入”,即哑变量设置的同进同出原则。

图13
图14

③ 点击“统计”,在“统计”页面中勾选“共线性诊断”(图15),点击“继续”后回到主对话框,点击“确定”。

图15
(2) 结果解读

如果“Tolerance(容忍度)”小于0.1或“VIF(方差膨胀因子)”大于10,则提示有严重共线性存在。本例中(图16),容忍度均远大于0.1,方差膨胀因子均小于10,提示自变量之间不存在严重多重共线性。如果数据存在严重多重共线性,需用复杂的方法进行处理,其中最简单的是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。满足条件5。

图16

(二) 统计描述及推断

1. 软件操作

① 选择“分析”—“广义线性模型”—“广义线性模型...”(图2)。

② 在“广义线性模型”对话框中选择“模型类型”,在该页面下的“计数”部分选择“负二项式与对数联接”(图17)。

图17

③ 在“广义线性模型”对话框中选择“响应”,在该页面下将变量“Days”选入右侧“因变量”框中(图18)。

图18

④ 在“广义线性模型”对话框中选择“预测变量”,在该页面下将变量“Race”、“Sex”、“Study”和“Age_2”、“Age_3”、“Age_4”三个虚拟变量同时选入右侧“因子”框中(图19)。点击下方的“选项”,在“选项”页面的“因子类别顺序”下选择“降序”(图6),然后点击“继续”回到主对话框。

图19

⑤ 在“广义线性模型”对话框中选择“模型”,把页面中间的构建项类型选为“主效应”,然后将左侧变量“Race”、“Sex”、“Study”和“Age_2”、“Age_3”、“Age_4”三个虚拟变量同时选入右侧“模型”框中(图20)。

图20

⑥ 在“广义线性模型”对话框中选择“估算”,在该页面下的“协方差矩阵”部分选中“稳健估算量”,其他保持默认不变,如图21所示。

图21

⑦ 在“广义线性模型”对话框中选择“统计”,在该页面下的“打印”部分选中“参数估算值”下的“包括指数参数估计”,其他保持默认不变,如图22所示,然后点击“确定”。

图22

2. 结果解读

图23和图24分别是对模型中的分类变量和连续变量的统计描述结果。

图23
图24

由图25“Tests of Model Effects(模型效应检验)”的结果可知,“Race”和“Age_3”在模型中有统计学意义。

图25

由图26“参数估算值”可知,少数民族学生缺课的发生率是汉族学生的0.565倍(IRR=0.565, 95%CI:0.425-0.752, P<0.001),关联有统计学意义。年龄6-8岁与10-12岁者相比,缺课的发生率下降了0.553倍(IRR=0.447,95%CI:0.284-0.703,P<0.001),关联有统计学意义。

图26

四、结论

本研究采用负二项回归探究民族、性别、年龄和学习状态对学生年缺课天数的影响。通过Poisson回归的过离散指标可知,因变量存在过离散现象;通过共线性诊断可知,变量间不存在严重的多重共线性,满足负二项回归的条件。

由负二项回归分析的结果可知,民族和年龄在模型中有统计学意义,与学生年缺课天数相关。其中,少数民族学生缺课的发生率是汉族学生的0.565倍(IRR=0.565, 95%:0.425-0.752, P<0.001);年龄6-8岁的与10-12岁的相比,缺课的发生率下降了0.553倍(IRR=0.447, 95%CI:0.275-0.725, P<0.001)。

五、知识小贴士

(一)Poisson回归与负二项回归

  • Poisson回归的应用条件之一是计数因变量服从Poisson分布,即因变量的平均值等于方差。但,很多事件的发生是非独立的,如传染性疾病、地方病、遗传病等,单位时间/空间内事件发生频数的方差远远大于平均值,即存在过离散现象。若用Poisson回归来分析这些事件的影响因素,会导致模型参数估计值的标准误偏小,参数检验的假阳性率增加。这时候宜选择负二项回归进行分析。

(二)与线性回归的重要区别

  • ①因变量的变量类型:Poisson回归/负二项回归的因变量为单位时间/空间发生的事件数,为服从Poisson分布或负二项分布计数资料;一般线性回归的因变量为服从正态(高斯)分布计量资料,如BMI、尿量等。
  • ②在广义线性模型中,Poisson回归/负二项回归的连接函数为ln,即对方程左侧取对数;而线性回归的为恒等函数,不需要任何变换,直接等于右侧的线性组合。

(三)IRR的含义

  • IRR,为Incidence rate ratio的缩写,译为发病率的比值,是暴露组与非暴露组事件发生率的比值。当IRR>1时,说明暴露增加了事件发生的可能性;当IRR=1,说明暴露与事件的发生无关联;当IRR<1,说明暴露降低了事件发生的可能性。
End
文章目录 沉浸式阅读