关键词:Stata; 有序logistic回归; 有序逻辑回归; 平行性检验; 比例优势检验
一、案例介绍
在某胃癌筛查项目中,为了确定胃癌筛查的重点人群,研究者想了解首诊“胃癌分期(Stage)”与患者“经济水平(Income)”、“性别(Gender)”和“年龄(Age)”之间的关系,试对数据进行分析。“胃癌分期(Stage)”中0=I-II期、1=II期、2=IV期、3=V期,“经济水平(Income)”中1=低水平、2=中等水平、3=高水平,“性别(Gender)”中0=男性、1=女性。部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例的分析目的是探讨首诊“胃癌分期”与患者“经济水平”、“性别(Gender)”和“年龄(Age)”之间的关系。在案例中,首诊“胃癌分期”为因变量,有I-II期、III期、IV期、V期4个分类,且分类间有等级次序关系。因此,可以采用有序logistic回归模型进行分析。但需要满足以下5个条件:
条件1:因变量唯一,且为有序多分类变量。本研究中因变量只有“胃癌分期”,且为有序多分类变量,该条件满足。
条件2:存在一个或多个自变量。本研究中有3个自变量,“性别”和“经济水平”为分类变量,“年龄”为连续变量,该条件满足。
条件3:观察变量相互独立。本研究中各研究对象的观察变量都是独立的,不存在互相干扰的情况,该条件满足。
条件4:自变量之间无多重共线性,该条件需要通过软件分析后判断。
条件5:满足平行性,该条件需要通过软件分析后判断。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件4判断(多重共线性判断)
(1) 软件操作
①*安装Collin模块*
详见(二分类logistic回归分析(Binomial Logistic Regression Analysis)——Stata软件实现)。
*方差膨胀因子-多重共线性诊断*
collin Gender Age Income
(2) 结果解读
由图2可知,“性别(Gender)”、“年龄(Age)”和“经济水平(Income)”的方差膨胀因子(VIF)分别为1.01、1.03和1.02,提示自变量之间无严重多重共线性,满足分析条件。
2. 条件5判断(平行性检验)
(1) 软件操作
①*安装oparallel模块*
ssc install oparallel
②*平行性检验,步骤在回归之后完成*
quietly ologit Stage Age i.Income oparallel
(2) 结果解读
图4展示了模型的平行性检验,平行性检验的原假设是各回归方程互相平行,Brant=2.238,P=0.897>0.05接受原假设,说明平行性假设成立,即各回归方程相互平行,满足条件5。
(二) 变量筛选
为分类变量选择合适的参考水平,“性别”参考水平设置为“男性”,“经济水平”参考水平设置为“低收入”。
1. 软件操作
*单因素有序多分类logistic回归*
ologit Stage Gender
ologit Stage Age
ologit Stage Income
2. 结果解读
图5、图6、图7中列出了每个自变量在模型中是否有统计学意义,即是否应被纳入模型。可知,“性别”无统计学意义(P=0.1202),应该被移除模型。
(三) 模型拟合
将 “性别”移除后进行有序多分类logistic回归分析。
1. 软件操作
①*拟合具有回归系数的有序多分类logistic回归模型*
ologit Stage Age i.Income
②*拟合具有效应量OR值的有序多分类logistic回归模型*
ologit Stage Age i.Income, or
2. 结果解读
(1) 拟合优度
图8、图9模型拟合度量结果,列出了模型拟合优度伪平方(pseudo-R2)为0.073。pseudo-R2越接近1说明回归方程的拟合度越高,因此本数据集模型拟合度不高。
(2) 模型系数
图8列出了各自变量拟合后在模型中的“coef(回归系数)”及其95%CI、“Std Err(标准误)”、“Z (统计量)”、“P (P值)”、图9中列出了“Odds ratio (OR值)”及其95%CI、“Std Err(标准误)”、“Z (统计量)”、“P (P值)。
其中“年龄”的P<0.001,有统计学意义;OR=1.120 (95%CI:1.062~1.182),表示年龄每增加一岁,其首诊“胃癌分期”提升一个等级的可能性是原来的1.120倍。“中等收入”水平患者首诊“胃癌分期”提升一个等级的可能性是“低收入”水平患者的3.322倍(95%CI:1.695~6.509,P<0.001);“高收入”水平患者首诊“胃癌分期”提升一个等级的可能性是“低收入”水平患者的2.434倍(95%CI:1.203~4.926,P=0.013)。
四、结论
本研究采用有序logistic回归模型分析首诊“胃癌分期”与患者“经济水平”、“性别”和“年龄”之间的关系。因变量例数分布满足样本量需求,变量之间不存在严重共线性,满足平行性假设(Brant=2.238,P=0.897>0.05)。
“性别”对首诊“胃癌分期”的影响无统计学意义。“年龄”每增加一岁,其首诊“胃癌分期”提升一个等级的可能性是原来的1.120倍(95%CI:1.062~1.182,P<0.001)。“中等收入”水平患者首诊“胃癌分期”提升一个等级的可能性是“低收入”水平患者的3.322倍(95%CI:1.695~6.509,P<0.001);“高收入”水平患者首诊“胃癌分期”提升一个等级的可能性是“低收入”水平患者的2.434倍(95%CI:1.203~4.926,P=0.013)。所建立的模型有统计学意义(χ²=35.29,P<0.001)。
五、分析小技巧
- 有序logistic回归模型分析结果除了常数项不同,各模型的自变量系数都相同。平行性检验的目的即是验证自变量不同取值对因变量的影响系数是否相同,即要满足无论因变量的分割点在什么位置,模型中各个自变量对因变量的影响不变。
- 如果不满足平行性假设,则考虑使用无序多分类logistic回归或用不同的分割点将因变量变为二分类变量,分别进行二项logistic回归。但是,当样本量过大时,平行线检验会过于敏感。即当存在平行性时,也会显示P<0.05。此时,可以尝试将因变量设置为哑变量,并拟合多个二项logistic回归模型,通过观察自变量对各哑变量的OR值是否近似来判断。