关键词:SPSS; 无序多分类logistic回归; 无序logistic回归; 无序逻辑回归
一、案例介绍
欲探索性别与年龄是否对某中医证型的分类有影响,从医院数据库中随机选择了200例样本进行分析。
创建表示性别的变量“gender”(1=男性、2=女性),测量尺度设为“Nominal(分类变量)”;创建表示年龄的变量“age”(1=<40岁、2=40-59岁、3=≥60岁),测量尺度设为“Ordinal(有序分类变量)”;创建表示中医证型的变量“TCM”(1=A型、2=B型、3=C型),测量尺度设为“Nominal(无序分类变量)”。部分数据见图1。本文案例可从“附件下载”处下载。
二、问题分析
本案例中,因变量“中医证型”为无序多分类变量,欲探索“性别”与“年龄”是否对“中医证型”分类有影响,可将“中医证型”的某一类别设置为对照组,通过无序多分类logistic回归分析将另外两种不同类别证型的样本分别与对照组进行对比,得到“性别”、“年龄”与这两种类别证型的暴露-风险关系。无序多分类logistic回归需要满足3个条件:
条件1:因变量唯一,且为无序多分类变量,本案例符合。
条件2:存在一个或多个自变量,可为定性与定量变量,本案例符合。
条件3:一般要求例数较少类的样本量为自变量个数的10~15倍(EPV原则)且经验上每组的人数最好多于30例,参照水平组不应少于30或50例。
三、软件操作及结果解读
(一) 适用条件判断
1. 条件3判断(因变量样本例数)
首先计算因变量中各类的样本例数。
(1) 软件操作
① 选择“分析”—“描述统计”—“频率”(图2)。
② 在“频率”对话框中将变量“TCM”选入右侧“变量”框中,点击“确定”(图3)。
(2) 结果解读
由图4可见,因变量中医证型“A”、“B”、“C”的例数分别为60、74和66,均>30例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”,本案例可纳入4~6个自变量进行多因素无序多分类logistic回归分析。
2. 条件3判断(自变量样本例数)
(1) 软件操作
① 选择“分析”—“描述统计”—“交叉表”(图5)。
② 在“交叉表 ”对话框中将变量“TCM”选入“行”,将变量“age”和“gender”均选入“列”(图6)。
(2) 结果解读
年龄和性别与中医证型的交叉表如图7和图8所示,可见年龄水平为“<40”和“≥60”时因变量的例数<30(图7),如果“年龄”在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照,若实在不能避免,在结果解释时应注意其局限性。
(二) 统计推断
1. 软件操作
① 点击“分析”—“回归”—“多元Logistic回归”(图9)。
② 在“多元Logistic回归”对话框中将变量“TCM”选入“因变量”,变量“gender”和“age”选入“因子”。如果自变量中还有连续型变量,则需要放入“协变量”位置(图10)。
③ 由于因变量“TCM”有多个分类,而无序多分类Logistic回归的原理是先指定一个类别为参考类别,然后将其他类别分别与参考类别对比。故点击“参考类别”进行设置,此处默认选择因变量赋值按升序排列后的最后一类做为参考类别,保持不变,点击“继续”回到主对话框(图11)。
④ 在“多元Logistic回归”对话框中点击“统计”,在子对话框中勾选“拟合优度”,其他保持默认不变,如图12所示。然后点击“继续”后回到主对话框,点击“确定”。
2. 结果解读
(1) 模型评价
图13给出的是数据的一般情况,展示了各变量的个案数和所占比例。
图14“模型拟合信息”是对模型中是否所有自变量偏回归系数均为0进行的似然比检验。其中-2对数似然值越小越好,从结果中可以看出,加入自变量后的模型比只有常数项的值更小(42.483<68.190),模型拟合更好。
图15为“似然比”检验结果,列出最终的模型是否有意义,与图14中的给出的信息一致。同时还列出了每个自变量在模型中是否有统计学意义。可知,性别“gender”在模型中无统计学意义(χ²=5.721,P=0.057),应该被移除模型。年龄“age”在模型中有统计学意义(χ²=21.875,P<0.001),应该保留在模型中。但考虑到本案例只有2个自变量,此次分析过程中仍然将两个自变量保留在多因素分析模型中。如果需要对模型中的自变量进行筛选,可以在“模型”子对话框中对模型纳入的自变量进行设置,此处不再详述,可以自行练习。
(2) 拟合优度
图16是伪R方表,给出了三种伪决定系数:“R²McF”、“R²CS”、“R²N”。均是回归方程对解释变量变异量化的一种反映,越接近1说明回归方程的拟合度越高。对于分类数据的统计分析,一般情况下伪决定系数都不会很高。
图17“参数估算值”给出了模型中具体参数的估计值。包括模型中的“B(回归系数)”、“标准误”、“统计量”、“显著性”、“Exp(B)(OR值)”及其95%CI。首先看下方的注释,可知本次统计是以“中医证型”C作为对照。以中医证型A与C比较为例,拟合的模型为:
Logit(A/C)=-1.675+0.803*(gender=1)+1.965*(age=1)+1.551*(age=2)
上式中(gender=1)指当年两分组变量取值为1时,括号内取值为1,反之为2。其他依此类推。
由所建立的模型可以看出,在“中医证型”A与C比较中,性别的P=0.040,但这并不能表示性别在模型中具有统计学意义,因为该变量的整体检验并无统计学意义。年龄<40岁的患者出现A型的风险是年龄≥60岁的7.133倍 (95%CI:2.063~24.664;P=0.002),年龄40-59岁的患者出现A型的风险是年龄≥60岁的4.718倍(95%CI:1.916~11.619;P=0.001)。在“中医证型”B与C的比较中,性别同样无统计学意义。年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.260;P<0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。
3. 补充分析
上述分析是以因变量C水平为参照得出的分析结果,可知A与C、B与C相比的情况,但是不知道B与A相比的情况。此处以水平A为参照进行分析。
(1)软件操作
① 点击“分析”—“回归”—“多元Logistic回归”(图9)。
② 在“多元Logistic回归”对话框中将变量“TCM”选入“因变量”,变量“gender”和“age”选入“因子”(图10)。
③ 点击“参考类别”进行设置,此时需要以水平A为参照,所以选择“第一个类别”,其他保持不变,点击“继续”回到主对话框,点击“确定”(图18)。
(2)结果解读
从图19可以看出,在“中医证型”B与A比较中,性别的P=0.039,但同样这并不能表示性别在模型中具有统计学意义,因为该变量的整体检验并无统计学意义。年龄<40岁的患者和年龄40-59岁的患者出现B型的风险与年龄≥60岁的患者相比,也均无统计学差异(P=0.980和P=0.317)。C与A比较的结果等价于图17中A与C比较的结果。
四、结论
本研究采用无序多分类Logistic回归探讨性别和年龄是否对某中医证型的分类有影响。因变量例数分布满足样本量需求。
“Likelihood Ratio Tests(似然比)”检验结果表明,自变量“gender”在模型中无统计学意义 ((χ²=5.721,P=0.057),“年龄”在模型中有统计学意义 (χ²=21.875,P<0.001)。在“中医证型”A与C比较中,性别无统计学意义。年龄<40岁的患者出现A型的风险是年龄≥60岁的7.133倍 (95%CI:2.063~24.664;P=0.002),年龄40-59岁的患者出现A型的风险是年龄≥60岁的4.718倍(95%CI:1.916~11.619;P=0.001)。在“中医证型”B与C的比较中,性别同样无统计学意义。年龄<40岁的患者出现B型的风险是年龄≥60岁的7.234倍 (95%CI:2.351~22.260;P<0.001),年龄40-59岁的患者出现B型的风险是年龄≥60岁的2.902倍 (95%CI:1.281~6.573;P=0.011)。
在“中医证型”B与A比较中,性别和年龄均无统计学意义。
五、知识小贴士
- 无序多分类logistic回归的因变量为多分类变量,内部分析过程是选择一个参照组将因变量拆分为多个二分类变量,拟合多个二项logistic回归。
- 由于无序多分类logistic回归的本质是多个二项logistic回归,因此其结果解读可参考二项logistic回归,只是每个变量需要在多个二项logistic回归中分别解读。
- 在“中医证型”B与C的比较以及B与A的比较中,可发现自变量“性别”有统计学意义,但由于整体检验该变量并无统计学意义,因此尚不能认为“性别”对中医证型的分类有影响。