无序多分类logistic回归分析(Multinomial Logistic Regression Analysis)——SPSS软件实现

2022年1月4日星期二发布于 20:53:00 浏览：14872

原创不易，转载请注明来源，感谢！

附件下载：

无序多分类logistic回归.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

在前面文章中介绍了无序多分类logistic回归分析(Multinomial Logistic Regression Analysis)的假设检验理论，本文将实例演示在SPSS软件中实现无序多分类logistic回归分析的操作步骤。

关键词：SPSS; 无序多分类logistic回归; 无序logistic回归; 无序逻辑回归

一、案例介绍

欲探索性别与年龄是否对某中医证型的分类有影响，从医院数据库中随机选择了200例样本进行分析。

创建表示性别的变量“gender”(1=男性、2=女性)，测量尺度设为“Nominal(分类变量)”；创建表示年龄的变量“age”(1=<40岁、2=40-59岁、3=≥60岁)，测量尺度设为“Ordinal(有序分类变量)”；创建表示中医证型的变量“TCM”(1=A型、2=B型、3=C型)，测量尺度设为“Nominal(无序分类变量)”。部分数据见图1。本文案例可从“附件下载”处下载。

二、问题分析

本案例中，因变量“中医证型”为无序多分类变量，欲探索“性别”与“年龄”是否对“中医证型”分类有影响，可将“中医证型”的某一类别设置为对照组，通过无序多分类logistic回归分析将另外两种不同类别证型的样本分别与对照组进行对比，得到“性别”、“年龄”与这两种类别证型的暴露-风险关系。无序多分类logistic回归需要满足3个条件：

条件1：因变量唯一，且为无序多分类变量，本案例符合。

条件2：存在一个或多个自变量，可为定性与定量变量，本案例符合。

条件3：一般要求例数较少类的样本量为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例，参照水平组不应少于30或50例。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件3判断(因变量样本例数)

首先计算因变量中各类的样本例数。

(1) 软件操作

① 选择“分析”—“描述统计”—“频率”(图2)。

② 在“频率”对话框中将变量“TCM”选入右侧“变量”框中，点击“确定”(图3)。

(2) 结果解读

由图4可见，因变量中医证型“A”、“B”、“C”的例数分别为60、74和66，均>30例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”，本案例可纳入4~6个自变量进行多因素无序多分类logistic回归分析。

2. 条件3判断(自变量样本例数)

(1) 软件操作

① 选择“分析”—“描述统计”—“交叉表”(图5)。

② 在“交叉表 ”对话框中将变量“TCM”选入“行”，将变量“age”和“gender”均选入“列”(图6)。

(2) 结果解读

年龄和性别与中医证型的交叉表如图7和图8所示，可见年龄水平为“<40”和“≥60”时因变量的例数<30(图7)，如果“年龄”在多因素分析过程中进入模型，应注意避免例数较少的水平被选为参照，若实在不能避免，在结果解释时应注意其局限性。

(二) 统计推断

1. 软件操作

① 点击“分析”—“回归”—“多元Logistic回归”(图9)。

② 在“多元Logistic回归”对话框中将变量“TCM”选入“因变量”，变量“gender”和“age”选入“因子”。如果自变量中还有连续型变量，则需要放入“协变量”位置(图10)。

③ 由于因变量“TCM”有多个分类，而无序多分类Logistic回归的原理是先指定一个类别为参考类别，然后将其他类别分别与参考类别对比。故点击“参考类别”进行设置，此处默认选择因变量赋值按升序排列后的最后一类做为参考类别，保持不变，点击“继续”回到主对话框(图11)。

④ 在“多元Logistic回归”对话框中点击“统计”，在子对话框中勾选“拟合优度”，其他保持默认不变，如图12所示。然后点击“继续”后回到主对话框，点击“确定”。

2. 结果解读

(1) 模型评价

图13给出的是数据的一般情况，展示了各变量的个案数和所占比例。

图14“模型拟合信息”是对模型中是否所有自变量偏回归系数均为0进行的似然比检验。其中-2对数似然值越小越好，从结果中可以看出，加入自变量后的模型比只有常数项的值更小（42.483<68.190），模型拟合更好。

图15为“似然比”检验结果，列出最终的模型是否有意义，与图14中的给出的信息一致。同时还列出了每个自变量在模型中是否有统计学意义。可知，性别“gender”在模型中无统计学意义(χ²=5.721，P=0.057)，应该被移除模型。年龄“age”在模型中有统计学意义(χ²=21.875，P<0.001)，应该保留在模型中。但考虑到本案例只有2个自变量，此次分析过程中仍然将两个自变量保留在多因素分析模型中。如果需要对模型中的自变量进行筛选，可以在“模型”子对话框中对模型纳入的自变量进行设置，此处不再详述，可以自行练习。

(2) 拟合优度

图16是伪R方表，给出了三种伪决定系数：“R²_McF”、“R²_CS”、“R²_N”。均是回归方程对解释变量变异量化的一种反映，越接近1说明回归方程的拟合度越高。对于分类数据的统计分析，一般情况下伪决定系数都不会很高。

图17“参数估算值”给出了模型中具体参数的估计值。包括模型中的“B(回归系数)”、“标准误”、“统计量”、“显著性”、“Exp(B)(OR值)”及其95%CI。首先看下方的注释，可知本次统计是以“中医证型”C作为对照。以中医证型A与C比较为例，拟合的模型为：

Logit(A/C)=-1.675+0.803*(gender=1)+1.965*(age=1)+1.551*(age=2)

上式中(gender=1)指当年两分组变量取值为1时，括号内取值为1，反之为2。其他依此类推。

由所建立的模型可以看出，在“中医证型”A与C比较中，性别的P=0.040，但这并不能表示性别在模型中具有统计学意义，因为该变量的整体检验并无统计学意义。年龄<40岁的患者出现A型的风险是年龄≥60岁的7.133倍 (95%CI：2.063~24.664；P=0.002)，年龄40-59岁的患者出现A型的风险是年龄≥60岁的4.718倍(95%CI：1.916~11.619；P=0.001)。在“中医证型”B与C的比较中，性别同样无统计学意义。年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI：2.351~22.260；P<0.001)，年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI：1.281~6.573；P=0.011)。

3. 补充分析

上述分析是以因变量C水平为参照得出的分析结果，可知A与C、B与C相比的情况，但是不知道B与A相比的情况。此处以水平A为参照进行分析。

(1)软件操作

① 点击“分析”—“回归”—“多元Logistic回归”(图9)。

② 在“多元Logistic回归”对话框中将变量“TCM”选入“因变量”，变量“gender”和“age”选入“因子”(图10)。

③ 点击“参考类别”进行设置，此时需要以水平A为参照，所以选择“第一个类别”，其他保持不变，点击“继续”回到主对话框，点击“确定”(图18)。

(2)结果解读

从图19可以看出，在“中医证型”B与A比较中，性别的P=0.039，但同样这并不能表示性别在模型中具有统计学意义，因为该变量的整体检验并无统计学意义。年龄<40岁的患者和年龄40-59岁的患者出现B型的风险与年龄≥60岁的患者相比，也均无统计学差异(P=0.980和P=0.317)。C与A比较的结果等价于图17中A与C比较的结果。

四、结论

本研究采用无序多分类Logistic回归探讨性别和年龄是否对某中医证型的分类有影响。因变量例数分布满足样本量需求。

“Likelihood Ratio Tests(似然比)”检验结果表明，自变量“gender”在模型中无统计学意义 ((χ²=5.721，P=0.057)，“年龄”在模型中有统计学意义 (χ²=21.875，P<0.001)。在“中医证型”A与C比较中，性别无统计学意义。年龄<40岁的患者出现A型的风险是年龄≥60岁的7.133倍 (95%CI：2.063~24.664；P=0.002)，年龄40-59岁的患者出现A型的风险是年龄≥60岁的4.718倍(95%CI：1.916~11.619；P=0.001)。在“中医证型”B与C的比较中，性别同样无统计学意义。年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI：2.351~22.260；P<0.001)，年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI：1.281~6.573；P=0.011)。

在“中医证型”B与A比较中，性别和年龄均无统计学意义。

五、知识小贴士

无序多分类logistic回归的因变量为多分类变量，内部分析过程是选择一个参照组将因变量拆分为多个二分类变量，拟合多个二项logistic回归。
由于无序多分类logistic回归的本质是多个二项logistic回归，因此其结果解读可参考二项logistic回归，只是每个变量需要在多个二项logistic回归中分别解读。
在“中医证型”B与C的比较以及B与A的比较中，可发现自变量“性别”有统计学意义，但由于整体检验该变量并无统计学意义，因此尚不能认为“性别”对中医证型的分类有影响。

我要纠错

End

有序logistic回归分析(Ordinal Logistic Regression Analysis)——SPSS软件实现

条件logistic回归分析(Conditional Logistic Regression Analysis)——SPSS软件实现