关键词:Stata; 泊松回归; Poisson回归; 等离散
一、案例介绍
某临床医师对39名有胸闷症状的非器质性心脏病男性患者的24小时早搏数(beat)进行了临床研究,记录每个患者的研究因素包括是否喝浓茶(tea)、是否吸烟(smoke)。请利用该资料对24小时早搏数的影响因素进行分析。
创建代表患者编号的变量“ID”;代表患者喝浓茶情况的分类变量“是否喝浓茶(tea)”,赋值为“0”和“1”(0为不喝浓茶1为喝浓茶);代表患者吸烟情况的分类变量“是否吸烟(smoke)”,赋值为“0”和“1”(0为不吸烟,1为吸烟),部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是了解有胸闷症状的非器质性心脏病男性患者24小时早搏数的影响因素。了解单位时间、单位面积或单位空间内某事件发生数的影响因素,可以考虑使用Poisson回归分析。但需要满足以下6个条件:
条件1:观察变量为计数变量。本研究中心脏病男性患者的24小时早搏数为计数变量,该条件满足。
条件2:观察变量的发生相互独立。本研究中各研究对象的每次早搏事件发生都是独立的,不存在互相干扰的情况,该条件满足。
条件3:至少有1个自变量,可以是分类变量,也可以是连续变量。本研究中有两个分类自变量,分别为是否喝浓茶和是否吸烟,该条件满足。
条件 4:观察变量不存在显著的异常值,该条件需要通过软件分析后判断。
条件5:观察变量服从Poisson分布,即满足等离散性,表现为计数值的平均值(近似)等于方差。该条件可以通过数据特征进行初步判断,本研究的观察变量为心脏病男性患者24小时早搏数(计数资料),从专业知识可知,早搏发生频数较低,各单位时间内的发生情况相互独立,基本满足Poisson分布的条件。同时还也可以结合软件分析进行判断。
条件6:自变量之间无多重共线性。该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件4判断(异常值检测)
(1) 软件操作
*绘制箱式图*
graph box beat
(2) 结果解读
异常值通过箱线图和专业知识进行判断,图2箱线图提示存在一个异常值。查看数据表可以发现在早搏数的第14位数值为17,依据专业可判定该值可以保留。综上,本案例未发现需要处理的异常值,满足条件4。
2. 条件5判断(等离散性检验)
(1) 软件操作
*描述性分析*
summarize beat, detail
(2) 结果解读
图3描述性分析可发现早搏数的均数为7.31,方差为10.692,均数近似等于方差,提示数据满足等离散性。
3. 条件6判断(多重共线性诊断)
(1) 软件操作
*拟合线性回归模型后计算容忍度及方差膨胀因子*
quietly reg beat tea smoke vif
(2) 结果解读
本例中,图4结果显示容忍度均为1,远大于0.1,方差膨胀因子均为1,远小于10,如果“1/VIF(容忍度)”小于0.1或“VIF(方差膨胀因子)”大于10,则表示存在严重共线性。
(二) 统计描述及推断
1. 软件操作
*描述性分析*
tab tea
tab smoke
sum beat
*拟合具有回归系数的poisson回归模型*
poisson beat i.tea i.smoke
*拟合具有IRR效应量的poisson回归模型*
poisson beat i.tea i.smoke, irr
*生成模型拟合指标*
estat ic
2. 结果解读
(1) 变量信息
图5和图6、图7分别是对模型中的分类变量和连续变量的统计描述结果。
(2) 拟合优度检验
图8中似然比χ2值为32.88,P<0.001,表明所给资料拟合相应的Poisson回归模型是合适的,模型有统计学意义,模型中至少有一个自变量有统计学意义。
图10为拟合优度检验结果,AIC和BIC值用于多次分析时的对比,图中注释提示信息准则是越小越好,这两个值对于单独一个模型的信息准则意义不大。如果多次进行模型分析,可对比两个值的变化情况,综合说明模型构建的优化过程。
(3) 参数估计
图8、图9是模型效果检验结果,其中截距和变量“是否喝浓茶”和“是否吸烟”对应的P值均小于0.001,有统计学意义。
图8展示了回归系数(coef),图9 中展示了即发生率比值(incidence-rate ratios,IRR,意同RR)。如果用Y表示早搏数,用X1表示是否喝浓茶,X2表示是否吸烟,可以得到模型的公式为:
\(Log(Y)=1.332+0.423*X1+0.608*X2\)由图9可知,对于有胸闷症状的非器质性心脏病男性患者24小时早搏发生风险,喝浓茶者是不喝浓茶者的1.527倍(95%CI:1.206~1.933;P<0.001),吸烟者是不吸烟者的1.837倍(95%CI:1.397~2.416;P<0.001)。
四、结论
本研究采用Poisson回归探讨有胸闷症状的非器质性心脏病男性患者24小时早搏数的影响因素。观察变量早搏数为计数变量,且单位时间内其发生相互独立,经过软件判断服从Poisson分布,不存在需要处理的异常值,且自变量之间不存在严重共线性,数据满足Poisson回归分析的条件。
经过Poisson回归分析发现,Omnibus检验结果的似然比χ2值为32.884,P<0.001,说明纳入“是否喝浓茶”和“是否吸烟”的回归模型有统计学意义。对于有胸闷症状的非器质性心脏病男性患者24小时早搏发生风险,参数估计结果表明喝浓茶和吸烟都是导致早搏发生的危险因素,喝浓茶者是不喝浓茶者的1.527倍(95%CI:1.206~1.933;P<0.001),吸烟者是不吸烟者的1.837倍(95%CI:1.397~2.416;P<0.001)。
五、知识小贴士
(一)Poisson分布
- 人类稀有疾病或一些卫生事件,如恶性肿瘤、某地在一个月内因交通事故死亡人数、1ml水中大肠杆菌数等计数资料,具有发病率低或者不像二项分布资料有分母能计算比例等特点。因此,这些事件数的多少除了取决于事件的实际发生数,还取决于计数时研究者所观察的范围,即观察多长时间、多大人群、多大面积等。使用发病密度等密度指标描述这些事件的群体特征比较合适。对于此类罕见事件的发生,如果事件之间彼此相互独立,观察样本含量较大时,则具有平均计数等于方差的特点。这类事件的发生次数往往服从Poisson分布。
(二)Poisson回归
- Poisson回归主要用于单位时间、单位面积、单位空间内某事件发生数的影响因素分析。在进行稀有事件等计数资料的影响因素分析时,应首先对资料的过离散情况进行判断或检验分析,然后选择正确的回归模型分析,才能得到正确的结果。一般先从专业方面判断,然后用统计学方法检验资料是否存在过离散现象。如果资料存在过离散情况,选用负二项回归模型;如果资料无过离散情况,选用Poisson回归模型分析。Poisson回归和多重线性回归、Logistics回归、Cox比例风险模型、负二项回归等都是医学领域中应用最多的广义线性模型之一。