负二项回归分析(Negative Binomial Regression Analysis)——Stata软件实现

发布于 2022年2月28日 星期一 11:14:42 浏览:11010
原创不易,转载请注明来源,感谢!
附件下载:
负二项回归.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了负二项回归分析(Negative binomial regression analysis)的假设检验理论,本篇文章将实例演示在Stata软件中实现负二项回归分析的操作步骤。

关键词:Stata; 负二项回归; 过离散; overdisp

一、案例介绍

某市抽样调查了146名学生某一学年的缺课天数(Days),同时收集了他们的民族(Race:1=汉族,2=少数民族)、性别(Sex:1=男,2=女)、年龄(Age:1=10-12岁,2=8-10岁,3=6-8岁,4=小于6岁)和学习状况(Study:1=良好,2=一般)等信息,拟探究上述因素对学生缺课天数的影响。部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是研究民族、性别、年龄、学习状况等对学生年缺课天数的影响。因变量为计数资料,服从Poisson分布或负二项分布,可以使用负二项回归分析。但需要满足5个条件:

条件1:因变量为计数变量。本案例的因变量为年缺课天数,为计数变量,满足条件。

条件2:至少有1 个自变量,可以是分类变量,也可以是连续变量。本案例有民族、年龄、性别、学习状况共4个自变量,满足该条件。

条件3:各观测行间是非独立的,事件的发生有空间聚集现象;或因变量存在过离散现象,即方差远大于均数。由研究设计可知,学生缺课天数无空间聚集现象,但过离散现象可能存在,可通过软件分析后判断。

条件4:自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件5:自变量不存在显著的异常值。由于本研究所分析的自变量为分类变量,暂不用查看异常值。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(过离散现象判断)

(1) 软件操作

①通过描述性统计分析判断过离散现象,结果如图2所示。

summarize Days, detail

图2

②利用“overdisp”包检验过离散现象,结果如图4所示。

*安装“overdisp”包*

ssc install overdisp

图3

*进行Poisson回归分析*

poisson Days i.Race i.Sex i.Age i.Study

*进行过离散假设检验*

overdisp Days i.Race i.Sex i.Age i.Study

图4
(2) 结果解读

由图2结果可知因变量Days的均值为16.459,方差为264.167,方差远大于均数。图4结果显示,P<0.001,提示拒绝不存在过离散现象的原假设。因此,本案例数据满足条件3。

2. 条件4判断 (共线性检测)

(1) 软件操作

变量之间的共线性诊断可以采用容忍度法 (Tolerance)、方差膨胀因子法 (VIF)、相关系数法和条件数法。本案例采用容忍度法、方差膨胀因子法来查看变量之间的多重共线性,可在线性回归后计算容忍度和方差膨胀因子。结果如图5所示。

*拟合线性回归模型*

regress Days Race Sex Age Study

*计算VIF和容忍度*

vif

图5
(2) 结果解读

图5结果中列出了自变量的方差膨胀因子(VIF)和容忍度(1/VIF)。可见,三个自变量的VIF均远小于10,容忍度均远大于0.1,提示变量间不存在严重的多重共线性,可知满足条件4。

(二) 统计描述及推断

1. 软件操作

拟合具有回归系数的模型,结果如图6所示。

nbreg Days i.Race i.Sex i.Age i.Study

图6

拟合具有发生率IRR值的模型,结果如图7所示。

nbreg Days i.Race i.Sex i.Age i.Study, irr

图7

2. 结果解读

由图7的结果可知,少数民族学生缺课的发生率是汉族学生的0.566倍(IRR=0.566, 95%CI: 0.415-0.771, P<0.001),关联有统计学意义;年龄6-8岁的与10-12岁的相比,缺课的发生率下降了0.553倍(IRR=0.447, 95%CI: 0.276-0.725, P=0.001),关联有统计学意义。

另外,图6和图7结果最底端也显示了过离散检验的结果(LR test of alpha=0), P<0.001,提示模型过离散假设成立,进一步证实了本案例数据满足条件3,故应采用负二项回归模型进行分析。

四、结论

本研究采用负二项回归探究民族、性别、年龄和学习状态对学生年缺课天数的影响。通过Poisson回归的过离散指标可知,因变量存在过离散现象;通过共线性诊断可知,变量间不存在严重的多重共线性,满足负二项回归的条件。 由负二项回归分析的结果可知,民族和年龄在模型中有统计学意义,与学生年缺课天数相关。其中,少数民族学生缺课的发生率是汉族学生的0.566倍(IRR=0.566, 95%CI: 0.415-0.771, P<0.001);年龄6-8岁的与10-12岁的相比,缺课的发生率下降了0.553倍(IRR=0.447, 95%CI: 0.276-0.725, P=0.001)。

五、知识小贴士

(一)Poisson回归与负二项回归

  • Poisson回归的应用条件之一是计数因变量服从Poisson分布,即因变量的平均值等于方差。但,很多事件的发生是非独立的,如传染性疾病、地方病、遗传病等,单位时间/空间内事件发生频数的方差远远大于平均值,即存在过离散现象。若用Poisson回归来分析这些事件的影响因素,会导致模型参数估计值的标准误偏小,参数检验的假阳性率增加。这时候宜选择负二项回归进行分析。

(二)与线性回归的重要区别

  • 因变量的变量类型:Poisson回归/负二项回归的因变量为单位时间/空间发生的事件数,为服从Poisson分布或负二项分布计数资料;一般线性回归的因变量为服从正态(高斯)分布计量资料,如BMI、尿量等。
  • 在广义线性模型中,Poisson回归/负二项回归的连接函数为ln,即对方程左侧取对数;而线性回归的为恒等函数,不需要任何变换,直接等于右侧的线性组合。

(三)IRR的含义

  • IRR,为Incidence rate ratio的缩写,译为发病率的比值,是暴露组与非暴露组事件发生率的比值。当IRR>1时,说明暴露增加了事件发生的可能性;当IRR=1,说明暴露与事件的发生无关联;当IRR<1,说明暴露降低了事件发生的可能性。

六、分析小技巧

利用“overdisp”包检验过离散现象,必须先进行Poisson回归后,方可使用overdisp命令。

End
文章目录 沉浸式阅读