关键词:Stata; 无序多分类logistic回归; 无序logistic回归; 无序逻辑回归
一、案例介绍
欲探索性别(1=“男性”,2=“女性”)与年龄(1=“<40岁”、2=“40-59岁”、3=“≥60岁”)是否对某中医证型(1=“A”、2=“B”、3=“C”)的分类有影响,从医院数据库中随机选择了200例样本进行分析。部分数据如图1所示。本文案例可从“附件下载”处下载。
二、问题分析
本案例中,因变量“中医证型”为无序多分类变量,欲探索“性别”与“年龄”是否对“中医证型”分类有影响,可将“中医证型”的某一类别设置为对照组,通过无序多分类logistic回归分析将另外两种不同类别证型的样本分别与对照组进行对比,得到“性别”、“年龄”与这两种类别证型的暴露-风险关系。无序多分类logistic回归需要满足3个条件:
条件1:因变量唯一,且为无序多分类变量,本案例符合。
条件2:存在一个或多个自变量,可为定性与定量变量,本案例符合。
条件3:一般要求例数较少类的样本量为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例,参照水平组不应少于30或50例。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(因变量样本例数)
(1) 软件操作
*计算因变量各水平例数*
tab 中医证型
(2) 结果解读
由图2可见,因变量“A”、“B”、“C”三组例数分别为60、74和66,均>30例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”,本案例可纳入4~6个自变量进行多因素无序多分类logistic回归分析。
2. 条件3判断(自变量各水平例数)
逐一计算分类变量各水平的因变量例数。
(1) 软件操作
①*考察“性别”各水平的例数*
tab 中医证型 性别
②*参照上述操作,考察“年龄”各水平的例数*
tab 中医证型 年龄
(2) 结果解读
由图3、图4可知,“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30,如果“年龄”在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照,若实在不能避免,在结果解释时应注意其局限性。
(二) 变量筛选
根据条件3(自变量各水平例数)计算结果,“年龄”水平为“<40岁”和“≥60岁”时因变量的例数<30,如果“年龄”在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照。
1. 软件操作
①*单因素无序多分类logistic回归*
mlogit 中医证型 性别
mlogit 中医证型 年龄
2. 结果解读
图5、图6单因素的无序多分类logistic中整体似然比检验中列出了是否有统计学意义,可知,“性别”无统计学意义(P=0.1472),应该被移除模型。但考虑到本案例只有2个自变量,此次分析过程中仍然保留在多因素分析模型中。
(三) 模型拟合
1. 软件操作
①*无序多分类logistic回归分析*
mlogit 中医证型 性别 ib3.年龄, base(1) rr
mlogit 中医证型 性别 ib3.年龄, base(3) rr
②*模型输出结果可视化*
quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(1)) marginsplot
quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2)) marginsplot
quietly margins, at (性别=(1 2) 年龄=(1 2 3)) vsquish predict(outcome(2)) marginsplot
2. 结果解读
图7、图8模型拟合度量结果,列出了模型拟合优度伪平方(pseudo-R2)为0.0587。pseudo-R2越接近1说明回归方程的拟合度越高,因此本数据集模型拟合度不高。 图7中列出了“中医证型”B与A比较、C与A比较各自变量拟合后在模型中的“OR(风险比值比)”及其95%CI、“SE (标准误)”、“Z (统计量)”、“P (P值)”。可知,在“中医证型”B与A比较中,年龄无统计学意义。在“中医证型”C与A比较中,年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (OR=0.140,95%CI:0.041~0.485;P=0.002),年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (OR=0.212,95%CI:0.086~0.522;P=0.001),图8在“中医证型”B与C比较中,年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.259;P=0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。图7中“中医证型”A与C的比较与图8中C与A的比较等价,图9、图10、图11为可视化模型输出结果。
四、结论
本研究采用无序多分类Logistic回归探讨性别和年龄是否对某中医证型的分类有影响。因变量例数分布满足样本量需求。
整体似然比检验表明,自变量“性别”在模型中无统计学意义(P=0.147),“年龄”在模型中有统计学意义(P<0.001)。在“中医证型”B与A比较中,年龄无统计学意义。在“中医证型”C与A比较中,年龄<40岁的患者出现C型的风险比年龄≥60岁的低86.0% (RR=0.140,95%CI:0.041~0.485;P=0.002),年龄40-59岁的患者出现C型的风险比年龄≥60岁的低78.8% (RR=0.212,95%CI:0.086~0.522;P<0.001)。在“中医证型”B与C比较中,年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.259;P<0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。
五、知识小贴士
- 无序多分类logistic回归的因变量为多分类变量,内部分析过程是选择一个参照组将因变量拆分为多个二分类变量,拟合多个二项logistic回归。
- 由于无序多分类logistic回归的本质是多个二项logistic回归,因此其结果解读可参考二项logistic回归,只是每个变量需要在多个二项logistic回归中分别解读。
- 在“中医证型”B与C的比较中,可发现自变量“性别”有统计学意义,但由于整体检验该变量并无统计学意义,因此尚不能认为“性别”对中医证型的分类有影响。