无序多分类Logistic回归分析(Multinomial Logistic Regression Analysis)——Stata软件实现

2022年2月28日星期一发布于 11:10:01 浏览：9903

原创不易，转载请注明来源，感谢！

附件下载：

无序多分类logistic回归.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

在前面文章中介绍了无序多分类Logistic回归分析(Multinomial Logistic Regression Analysis)的假设检验理论，本篇文章将实例演示在Stata软件中实现无序多分类Logistic回归分析的操作步骤。

关键词：Stata; 无序多分类logistic回归; 无序logistic回归; 无序逻辑回归

一、案例介绍

欲探索性别(1=“男性”，2=“女性”)与年龄(1=“<40岁”、2=“40-59岁”、3=“≥60岁”)是否对某中医证型(1=“A”、2=“B”、3=“C”)的分类有影响，从医院数据库中随机选择了200例样本进行分析。部分数据如图1所示。本文案例可从“附件下载”处下载。

二、问题分析

本案例中，因变量“中医证型”为无序多分类变量，欲探索“性别”与“年龄”是否对“中医证型”分类有影响，可将“中医证型”的某一类别设置为对照组，通过无序多分类logistic回归分析将另外两种不同类别证型的样本分别与对照组进行对比，得到“性别”、“年龄”与这两种类别证型的暴露-风险关系。无序多分类logistic回归需要满足3个条件：

条件1：因变量唯一，且为无序多分类变量，本案例符合。

条件2：存在一个或多个自变量，可为定性与定量变量，本案例符合。

条件3：一般要求例数较少类的样本量为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例，参照水平组不应少于30或50例。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(因变量样本例数)

(1) 软件操作

*计算因变量各水平例数*

tab 中医证型

(2) 结果解读

由图2可见，因变量“A”、“B”、“C”三组例数分别为60、74和66，均>30例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”，本案例可纳入4~6个自变量进行多因素无序多分类logistic回归分析。

2. 条件3判断(自变量各水平例数)

逐一计算分类变量各水平的因变量例数。

(1) 软件操作

①*考察“性别”各水平的例数*

tab 中医证型性别

②*参照上述操作，考察“年龄”各水平的例数*

tab 中医证型年龄

(2) 结果解读

由图3、图4可知，“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30，如果“年龄”在多因素分析过程中进入模型，应注意避免例数较少的水平被选为参照，若实在不能避免，在结果解释时应注意其局限性。

(二) 变量筛选

根据条件3(自变量各水平例数)计算结果，“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30，如果“年龄”在多因素分析过程中进入模型，应注意避免例数较少的水平被选为参照。

1. 软件操作

①*单因素无序多分类logistic回归*

mlogit 中医证型性别

mlogit 中医证型年龄

2. 结果解读

图5、图6单因素的无序多分类logistic中整体似然比检验中列出了是否有统计学意义，可知，“性别”无统计学意义(P=0.1472)，应该被移除模型。但考虑到本案例只有2个自变量，此次分析过程中仍然保留在多因素分析模型中。

(三) 模型拟合

1. 软件操作

①*无序多分类logistic回归分析*

mlogit 中医证型性别 ib3.年龄, base(1) rr

mlogit 中医证型性别 ib3.年龄, base(3) rr

②*模型输出结果可视化*

quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(1))
marginsplot

quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2))
marginsplot

quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2))
marginsplot

2. 结果解读

图7、图8模型拟合度量结果，列出了模型拟合优度伪平方(pseudo-R²)为0.0587。pseudo-R²越接近1说明回归方程的拟合度越高，因此本数据集模型拟合度不高。图7中列出了“中医证型”B与A比较、C与A比较各自变量拟合后在模型中的“OR(风险比值比)”及其95%CI、“SE (标准误)”、“Z (统计量)”、“P (P值)”。可知，在“中医证型”B与A比较中，年龄无统计学意义。在“中医证型”C与A比较中，年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (OR=0.140，95%CI：0.041~0.485；P=0.002)，年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (OR=0.212，95%CI：0.086~0.522；P=0.001)，图8在“中医证型”B与C比较中，年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI：2.351~22.259；P=0.001)，年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI：1.281~6.573；P=0.011)。图7中“中医证型”A与C的比较与图8中C与A的比较等价，图9、图10、图11为可视化模型输出结果。

四、结论

本研究采用无序多分类Logistic回归探讨性别和年龄是否对某中医证型的分类有影响。因变量例数分布满足样本量需求。

整体似然比检验表明，自变量“性别”在模型中无统计学意义(P=0.147)，“年龄”在模型中有统计学意义(P<0.001)。在“中医证型”B与A比较中，年龄无统计学意义。在“中医证型”C与A比较中，年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (RR=0.140，95%CI：0.041~0.485；P=0.002)，年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (RR=0.212，95%CI：0.086~0.522；P<0.001)。在“中医证型”B与C比较中，年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI：2.351~22.259；P<0.001)，年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI：1.281~6.573；P=0.011)。

五、知识小贴士

无序多分类logistic回归的因变量为多分类变量，内部分析过程是选择一个参照组将因变量拆分为多个二分类变量，拟合多个二项logistic回归。
由于无序多分类logistic回归的本质是多个二项logistic回归，因此其结果解读可参考二项logistic回归，只是每个变量需要在多个二项logistic回归中分别解读。
在“中医证型”B与C的比较中，可发现自变量“性别”有统计学意义，但由于整体检验该变量并无统计学意义，因此尚不能认为“性别”对中医证型的分类有影响。

我要纠错

End

有序Logistic回归分析(Ordinal Logistic Regression Analysis)——Stata软件实现

条件logistic回归分析(Conditional Logistic Regression Analysis)——Stata软件实现