二分类结局事件的Poisson回归(对数线性模型)——SPSS软件实现

2022年10月20日星期四发布于 13:59:58 浏览：7096

原创不易，转载请注明来源，感谢！

附件下载：

二分类结局事件的Poisson回归(对数线性模型).zip 请勿重复点击，如无响应请耐心等待或稍后再试。

泊松回归分析不仅可用于因变量是离散型计量资料的数据(泊松回归分析(Poisson Regression Analysis)——SPSS软件实现)，还可用于因变量是二分类结局事件的数据分析。本文实例演示在SPSS软件中，利用对数线性模型实现二分类结局事件的Poisson回归分析过程。

一、案例介绍

研究职业辐射暴露与癌症发病的关系，收集了不同年龄段的工作人员的相关信息。数据如图1所示，exposure为职业暴露(0=低剂量，1=高剂量)，age为年龄(1= 18~35岁，2= 36~50岁，3= 51~60岁，4=≥61岁)，cancer为患癌人数，total为观察人数。本案例数据可从“附件下载”处下载。

二、问题分析

本案例的分析目的是了解职业辐射暴露与癌症发病的关系，结局事件为罕见事件，可以考虑使用Poisson回归分析。但由于本案例中的自变量“exposure”和“age”均为分类变量，因此可以考虑使用对数线性模型进行数据分析。

关于Poisson回归的适用条件详见泊松回归分析(Poisson Regression Analysis)——理论介绍和泊松回归分析(Poisson Regression Analysis)——SPSS软件实现。其适用条件的相关操作详见上述推文具体介绍，本文只演示等离散性条件的判断过程。

三、软件操作

(一) 适用条件判断

此处演示等离散性条件的判断过程。

对于离散型计量资料可采用“单样本K-S检验”考察数据是否服从Possion分布(泊松回归分析(Poisson Regression Analysis)——SPSS软件实现)或者直接根据均数和方差大小进行初略判断。对于二分类数据，可以使用“拉格朗日乘数检验”进行等离散性判断。“拉格朗日乘数检验”在SPSS软件中，需要借助广义线性模型中的“负二项回归分析”实现，具体操作详见(二分类结局事件的Poisson回归(广义线性模型)——SPSS软件实现)。

“拉格朗日乘数检验”结果(图2)显示，P=0.114，表示数据不存在严重过离散现象。

(二) 数据加权

本案例数据为加权数据，因此在使用对数线性模型进行Possion回归前，需要先对结局事件发生数(cancer)进行加权。选择“数据”—“个案加权”(图3)。

在“个案加权”对话框(图4)，将“患癌人数[cancer]”选入“个案加权依据”下的“频率变量”，单击“确定”。

(三) 对数线性模型分析

选择“分析”—“对数线性”—“常规”(图5)。

将“职业暴露[exposure]”“年龄分级[age]”选入“因子”，“观察人数[total]”选入“单元格结构”(图6)。

“因子”框用于选入需要分析的各个因素；“单元格协变量”框用于选入模型中需要引入或控制的连续性变量，此时模型在拟合时会对每一个单元格按照该变量的平均水平进行估计；“单元格结构”框用于设定各组的观察人数；最下方的“单元格计数分布”，用于选择单元格中频数的分布，默认为“泊松”分布。

点击图6右侧“模型”，进入“常规对数线性分析：模型”对话框(图7)，“指定模型”选择“构建项”，再将“exposure”和“age”的主效应选入“模型中的项”，点“继续”。

点击图6右侧“选项”，进入“常规对数线性分析：选项”对话框(图8)，“显示”下勾选“频率”“残差”“估算值”；“图”下勾选“调整后残差”“调整后残差的正态概率”；并将“Delta”中的“0.5”更改为“0”，其余默认。

模型在计算时会首先对所有单元格中频数均加上“Delta”值，以避免某些单元格中频数为0时可能引起的计算问题。这样做不会影响统计检验的结果，但是当数据量较少时会略微影响参数的估计值。因此，数据较为简单时，若不存在空单元格，则建议将“Delta”设定为0；若存在空单元格，则将“Delta”设定为0.5。

四、结果解读

“数据信息”列出了案例数和变量的水平数。“收敛信息”呈现了迭代收敛信息，见图9。

“拟合优度检验”(图10)显示，当前模型与饱和模型相比差异无统计学意义(似然比检验和皮尔逊卡方检验的P值均>0.05)，表示不需要再纳入两个自变量的交互项。

“单元格计数和残差”结果(图11)中列出了各单元格的实际频数、理论频数及其占总样本例数的比例等。

“参数估算值”结果(图12)给出了各个自变量的估计系数。可知低剂量暴露组发生癌症的风险(RR值)是高剂量组的0.6350827倍[exp(-0.454)= 0.6350827]，即高剂量暴露组发生癌症的风险(RR值)是低剂量组的1.574598(1/0.6350827)倍。同理，可知18~35岁组发生癌症的风险是≥61岁组的0.04618963倍[exp(-3.075)= 0.04618963]，36~50岁组发生癌症的风险是≥61岁组的0.1684696倍[exp(-1.781)= 0.1684696]，51~60岁组发生癌症的风险是≥61岁组的0.4975795倍[exp(-0.698) = 0.4975795]；即61岁组发生癌症的风险分别是18~35岁组、36~50岁组、51~60岁组的21.64988倍、5.935789倍、2.009729倍(不过本文年龄是作为调整变量，并不是被关注的目标结果)。

对数线性模型不能直接计算OR值或RR值，在广义估计方程中可以直接计算效应量(二分类结局事件的Poisson回归(广义估计方程)——SPSS软件实现)。

五、结论

通过对数线性模型中的Possion回归分析可知，低剂量暴露组发生癌症的风险(RR值)是高剂量组的0.6350827倍[exp(-0.454)= 0.6350827]，即高剂量暴露组发生癌症的风险(RR值)是低剂量组的1.574598倍(P<0.001)。

我要纠错

End

对数线性模型与其他模型的关系