无序多分类Logistic回归分析(Multinomial Logistic Regression Analysis)——Stata软件实现

发布于 2022年2月28日 星期一 11:10:01 浏览:7621
原创不易,转载请注明来源,感谢!
附件下载:
无序多分类logistic回归.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了无序多分类Logistic回归分析(Multinomial Logistic Regression Analysis)的假设检验理论,本篇文章将实例演示在Stata软件中实现无序多分类Logistic回归分析的操作步骤。

关键词:Stata; 无序多分类logistic回归; 无序logistic回归; 无序逻辑回归

一、案例介绍

欲探索性别(1=“男性”,2=“女性”)与年龄(1=“<40岁”、2=“40-59岁”、3=“≥60岁”)是否对某中医证型(1=“A”、2=“B”、3=“C”)的分类有影响,从医院数据库中随机选择了200例样本进行分析。部分数据如图1所示。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例中,因变量“中医证型”为无序多分类变量,欲探索“性别”与“年龄”是否对“中医证型”分类有影响,可将“中医证型”的某一类别设置为对照组,通过无序多分类logistic回归分析将另外两种不同类别证型的样本分别与对照组进行对比,得到“性别”、“年龄”与这两种类别证型的暴露-风险关系。无序多分类logistic回归需要满足3个条件:

条件1:因变量唯一,且为无序多分类变量,本案例符合。

条件2:存在一个或多个自变量,可为定性与定量变量,本案例符合。

条件3:一般要求例数较少类的样本量为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例,参照水平组不应少于30或50例。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(因变量样本例数)

(1) 软件操作

*计算因变量各水平例数*

tab 中医证型

图2
(2) 结果解读

由图2可见,因变量“A”、“B”、“C”三组例数分别为60、74和66,均>30例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”,本案例可纳入4~6个自变量进行多因素无序多分类logistic回归分析。

2. 条件3判断(自变量各水平例数)

逐一计算分类变量各水平的因变量例数。

(1) 软件操作

①*考察“性别”各水平的例数*

tab 中医证型 性别

图3

②*参照上述操作,考察“年龄”各水平的例数*

tab 中医证型 年龄

图4
(2) 结果解读

由图3、图4可知,“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30,如果“年龄”在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照,若实在不能避免,在结果解释时应注意其局限性。

(二) 变量筛选

根据条件3(自变量各水平例数)计算结果,“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30,如果“年龄”在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照。

1. 软件操作

①*单因素无序多分类logistic回归*

mlogit 中医证型 性别

图5

mlogit 中医证型 年龄

图6

2. 结果解读

图5、图6单因素的无序多分类logistic中整体似然比检验中列出了是否有统计学意义,可知,“性别”无统计学意义(P=0.1472),应该被移除模型。但考虑到本案例只有2个自变量,此次分析过程中仍然保留在多因素分析模型中。

(三) 模型拟合

1. 软件操作

①*无序多分类logistic回归分析*

mlogit 中医证型 性别 ib3.年龄, base(1) rr

图7

mlogit 中医证型 性别 ib3.年龄, base(3) rr

图8

②*模型输出结果可视化*

quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(1))
marginsplot
图9
quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2))
marginsplot
图10
quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2))
marginsplot
图11

2. 结果解读

图7、图8模型拟合度量结果,列出了模型拟合优度伪平方(pseudo-R2)为0.0587。pseudo-R2越接近1说明回归方程的拟合度越高,因此本数据集模型拟合度不高。 图7中列出了“中医证型”B与A比较、C与A比较各自变量拟合后在模型中的“OR(风险比值比)”及其95%CI、“SE (标准误)”、“Z (统计量)”、“P (P值)”。可知,在“中医证型”B与A比较中,年龄无统计学意义。在“中医证型”C与A比较中,年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (OR=0.140,95%CI:0.041~0.485;P=0.002),年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (OR=0.212,95%CI:0.086~0.522;P=0.001),图8在“中医证型”B与C比较中,年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.259;P=0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。图7中“中医证型”A与C的比较与图8中C与A的比较等价,图9、图10、图11为可视化模型输出结果。

四、结论

本研究采用无序多分类Logistic回归探讨性别和年龄是否对某中医证型的分类有影响。因变量例数分布满足样本量需求。

整体似然比检验表明,自变量“性别”在模型中无统计学意义(P=0.147),“年龄”在模型中有统计学意义(P<0.001)。在“中医证型”B与A比较中,年龄无统计学意义。在“中医证型”C与A比较中,年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (RR=0.140,95%CI:0.041~0.485;P=0.002),年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (RR=0.212,95%CI:0.086~0.522;P<0.001)。在“中医证型”B与C比较中,年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.259;P<0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。

五、知识小贴士

  • 无序多分类logistic回归的因变量为多分类变量,内部分析过程是选择一个参照组将因变量拆分为多个二分类变量,拟合多个二项logistic回归。
  • 由于无序多分类logistic回归的本质是多个二项logistic回归,因此其结果解读可参考二项logistic回归,只是每个变量需要在多个二项logistic回归中分别解读。
  • 在“中医证型”B与C的比较中,可发现自变量“性别”有统计学意义,但由于整体检验该变量并无统计学意义,因此尚不能认为“性别”对中医证型的分类有影响。
End
文章目录 沉浸式阅读