二分类结局事件的Poisson回归(广义线性模型)——SPSS软件实现

2022年10月20日星期四发布于 15:05:25 浏览：8908

原创不易，转载请注明来源，感谢！

附件下载：

二分类结局事件的Poisson回归(广义线性模型).zip 请勿重复点击，如无响应请耐心等待或稍后再试。

泊松回归分析不仅可用于因变量是离散型计量资料的数据(泊松回归分析(Poisson Regression Analysis)——SPSS软件实现)，还可用于因变量是二分类结局事件的数据分析。在前面文章中介绍了利用对数线性模型实现二分类结局事件的Poisson回归分析——SPSS软件实现，本文实例演示在SPSS软件中，利用广义线性模型实现二分类结局事件的Poisson回归分析过程。

一、案例介绍

本文案例同于对数线性模型实现二分类结局事件的Poisson回归分析——SPSS软件实现，研究职业辐射暴露与癌症发病的关系。但是广义线性模型对数据的需要格式不同于对数线性模型，如图1所示，变量exposure为职业暴露(0=低剂量，1=高剂量)，age为年龄(1= 18~35岁，2= 36~45岁，3= 46~60岁，4=≥61岁)，cancer为是否患癌(0=未患癌，1=患癌)，fre为频数(人数)。本案例数据可从“附件下载”处下载。

二、问题分析

本案例的分析目的是了解职业辐射暴露与癌症发病的关系，结局事件为罕见事件，可以考虑使用Poisson回归分析。但由于本案例中的自变量“exposure”和“age”均为分类变量，因此可以考虑使用广义线性模型进行数据分析。

关于Poisson回归的适用条件详见泊松回归分析(Poisson Regression Analysis)——理论介绍和泊松回归分析(Poisson Regression Analysis)——SPSS软件实现。其适用条件的相关操作详见上述推文具体介绍，本文只演示等离散性条件的判断过程。

三、软件操作

(一) 适用条件判断

此处演示等离散性条件的判断过程。

对于离散型计量资料可采用“单样本K-S检验”考察数据是否服从Possion分布(泊松回归分析(Poisson Regression Analysis)——SPSS软件实现)或者直接根据均数和方差大小进行初略判断。对于二分类数据，可以使用“拉格朗日乘数检验”进行等离散性判断。“拉格朗日乘数检验”在SPSS软件中，需要借助广义线性模型中的“负二项回归分析”实现。

1. 数据加权

本案例是加权数据，因此需要先对频数(fre)进行加权。选择“数据”—“个案加权”(图2)。

在“个案加权”对话框，将“频数”选入“个案加权依据”下的“频率变量”，单击“确定”(图3)。

2. 拉格朗日乘数检验

选择“分析”—“广义线性模型”—“广义线性模型”(图4)。

在“模型类型”中，选择“负二项式与对数联接”(图5)。

在“响应”中，将“是否患癌[cancer]”选入“因变量”(图6)。

在“预测变量”中，将“职业暴露[exposure]”和“年龄分级[age]”选入“因子”(图7)。

在“模型”中，将“exposure”“age”的主效应选入右侧“模型”框(图8)。

在“统计”中，勾选“标度参数或负二项式辅助参数的拉格朗日乘数检验”(图9)。

“拉格朗日乘数检验”(图10)结果显示，P=0.114，表示数据不存在严重过离散现象。

(三) 广义线性模型分析

1. 软件操作

选择“分析”—“广义线性模型”—“广义线性模型”(图4)。

在“模型类型”中，选择“泊松对数线性”(图11)。

在“响应”中，将“是否患癌[cancer]”选入“因变量”(图6)。

在“预测变量”中，将“职业暴露[exposure]”和“年龄分级[age]”选入“因子”(图7)。然后点击“因子”框下方“选项”，在“因子的类别顺序”中选择“降序”(表示以最低水平为参照)，见图12；如果选择“升序”则表示以最高水平为参照。

在“模型”中，将“exposure”“age”的主效应以及“exposure* age”的交互项选入右侧“模型”框(图13)。

在“统计”中补充勾选“参数估算值”和“包括指数参数估计值(可计算效应量指标)”(图14)。设置好上述参数后，点击主页面的“确定”按钮。

2. 结果解读

(1) 交互作用检验

“模型效应检验”表示，校正了其他因素以后各因素的主效应检验结果，如果两个因素存在交互作用时，主效应的检验已无多大实际意义，应进一步看各因素的单独效应。但交互作用只要存在统计学意义，无论这两个因素有无统计学意义都应纳入模型。此处，由“模型效应检验”结果(图15)可知，“职业暴露*年龄分级”交互项的P值为0.454，表示交互项无统计学意义。因此需要在构建模型时将交互项移除模型。

在图13“模型”中，将“exposure* age”的交互项移除模型，保留“exposure”“age”的主效应在“模型”框(图16)。重新执行上述分析。以下展示的结果均是基于“exposure”“age”的主效应分析结果。

(2) 拟合优度检验

“拟合优度”结果(图17)中皮尔逊卡方的P=0.983，提示模型拟合好，结果准确性强。一般来说，如果数据预测频数接近观测频数，模型的拟合程度就比较好，检验结果将提示卡方值比较小，P值较大。但如果检验结果P<0.05，就说明模型拟合程度不好，提示应适当调整模型，重新进行模型筛选。“拟合优度”表中信息准则可用于比较不同的模型，其值越小越好，单独一个模型的信息准则意义不大。

(3) Omnibus 检验

“Omnibus 检验”表示全局检验，即拟合模型与只含截距、不含任何自变量的模型相比较是否有差异。当前模型P<0.001(图18)，表明包含“exposure”“age”两者主效应的模型比无效模型更有价值。

(4) 参数估计

“模型效应检验”结果(图19)显示，“职业暴露”和“年龄分级”在模型中有统计学意义(P<0.001)。

“参数估算值”结果(图20)给出了各个自变量的估计系数级效应量。可知高剂量暴露组发生癌症的风险(RR值)是低剂量组的1.574 (95%CI为1.261~1.965)倍。61岁以上组、46~60岁组、36~45岁组发生癌症的风险分别是18~35岁组的21.641 (95%CI为15.629~29.966)倍、10.764 (95%CI为7.783~14.886)倍、3.647 (95%CI为2.582~5.150)倍(不过本文年龄是作为调整变量，并不是被关注的目标结果)。

与对数线性模型实现二分类结局事件的Poisson回归分析——SPSS软件实现比较可知，61岁组 vs. 18~35岁组的RR值为21.641，结果完全一致；其他效应量不一样是因为参照组别不同所致。

四、结论

通过广义线性模型中的Possion回归分析可知，高剂量暴露组发生癌症的风险(RR值)是低剂量组的1.574 (95%CI为1.261~1.965) 倍(P<0.001)。

我要纠错

End

条件logistic回归分析(Conditional Logistic Regression Analysis)——SPSS软件实现