梦特云统计

条件logistic回归分析(Conditional Logistic Regression Analysis)——Stata软件实现

2022年2月28日星期一发布于 11:11:46 浏览：6608

原创不易，转载请注明来源，感谢！

附件下载：

条件logistic回归.zip 请勿重复点击，如无响应请耐心等待或稍后再试。

在前面文章中介绍了条件logistic回归分析(Conditional Logistic Regression Analysis)的假设检验理论，本篇文章将实例演示在Stata软件中实现条件logistic回归分析的操作步骤。

关键词：Stata; 条件logistic回归; 配对logistic回归; 条件逻辑回归; 配对逻辑回归

一、案例介绍

某肾内科医师拟探究急性肾损伤的危险因素，回顾性收集了109例在院内发生急性肾损伤患者的性别、年龄、体质指数(BMI)、血肌酐(Cr)和血清乳酸(Serum Lactate)，并根据性别和年龄进行1:1配对，收集了109例未发生肾损伤患者的相关信息，进行配对病例对照研究。“saki”为二分类变量，代表急性肾损伤发生情况(“发生”记录为“1”，“未发生”记录为“0”)；“bmi”为有序多分类变量，代表体质指数(“偏瘦”为“1”，“正常”为“2”，“超重”为“3”)；“cr”和“lactate”都为连续变量，分别表示血肌酐和血清乳酸含量；“subclass”为多分类变量，表示对子数。部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是探讨急性肾损伤的危险因素，采用配对设计，研究多个因素对二分类因变量的影响，可以采用条件logistic回归分析。但需要满足7个条件：

条件1：因变量为二分类变量。本研究中因变量是是否发生急性肾损伤“是”和“否”，为二分类变量，该条件满足。

条件2：至少有1个自变量。自变量可以是分类变量也可以是连续变量。本研究中有多个自变量，类型各异，该条件满足。

条件3：观察变量为配对设计。本研究中，两组患者是根据性别和年龄进行1:1配对，该条件满足。

条件4：因变量对子数为自变量个数的10~15倍(EPV原则)，最好＞30对，自变量的参照水平组不应少于30或50例。该条件需要通过软件分析后判断。

条件5：自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件6：自变量不存在显著的异常值。该条件需要通过软件分析后判断。

条件7：数据未出现完全分离或拟完全分离现象。该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件4判断(因变量样本例数)

(1) 软件操作

*查看因变量各水平的例数*

tab saki

图2

(2) 结果解读

由图2可见，“1”代表“发生急性肾损伤”，“0”代表“未发生急性肾损伤”，两组均为109例，即109对。根据“因变量对子数为自变量个数的10~15倍(EPV原则) ”，本案例可纳入7~11个自变量进行多因素条件logistic回归分析。

2. 条件4判断(自变量样本例数)

(1) 软件操作

*查看多分类变量bmi和因变量各水平组合下的例数*

tab saki bmi

图3

(2) 结果解读

由图3结果可知，“BMI”水平为“1”偏瘦时，因变量的例数<30，如果该变量在多因素分析过程中进入模型，应注意避免例数较少的水平被选为参照。

3. 条件5判断(多重共线性诊断)

容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。在Stata中可以通过线性回归来获得。

(1) 软件操作

*拟合线性回归模型*

regress saki ib3.bmi cr lactate

*计算VIF和方差膨胀因子*

vif

图4

(2) 结果解读

如果“Tolerance(容忍度)”小于0.1或“VIF(方差膨胀因子)”大于10，则表示有严重共线性存在。根据图4结果可知，本例中，容忍度均远大于0.1，方差膨胀因子均小于10，所以不存在严重多重共线性。本研究数据满足条件5。

4. 条件6判断(异常值检测)

(1) 软件操作

*计算库克距离*

predict cook, cooksd
summarize cook

图5

(2) 结果解读

使用库克距离来判断强影响点是否为因变量的异常值点。一般认为当D<0.5时不是异常值点，当D>0.5时是异常值点。图5结果显示，本案例最大库克距离为0.336<0.5，提示不存在显著异常值，本研究数据满足条件6。

5. 条件7判断(完全分离检测)

完全分离，指某一个自变量本身或者某几个自变量的线性组合，对因变量的预测结果与实际情况完全一致，常表现为OR值无穷大。通过图3可见并不存在完全分离。该条件满足。

(二) 条件logistic回归分析

1. 软件操作

根据上面的分析可知，“BMI”水平为“1”(偏瘦)时，因变量的例数<30，该变量在多因素分析过程中进入模型，应注意避免例数较少的水平被选为参照，故在模型中选择“BMI”水平为“3”(超重)作为参照。结果见图6。

*拟合回归模型*

clogit saki ib3.bmi cr lactate, group(subclass) or

图6

2. 结果解读

图6列出了条件logistic回归分析的结果，可知，模型整体检验χ²=66.30，P<0.001，提示模型有统计学意义，说明模型纳入的自变量中至少有一个有统计学意义。BMI=1(偏瘦)的OR=0.201，P=0.010，说明BMI偏瘦和BMI超重之间的差异具有统计学意义，偏瘦发生急性肾损伤的风险是超重者的0.201倍 (95%CI：0.060~0.680)(将0.201取倒数，即为超重组发生急性肾损伤的风险是偏瘦组的4.98倍)；BMI=2(中等)的OR=0.690，P=0.401>0.05，说明BMI中等和BMI超重者之间的差异无统计学意义。Cr组和Lacate组的OR值分别为1.011 (95%CI：1.006~1.017；P<0.001)和1.169(95%CI：1.029~1.329；P=0.017)，均大于1，说明急性肾损伤风险随着Cr和Lacate的增高而增加，Cr每增高一个单位，发生急性肾损伤的风险增加0.011倍；Lacate每增高一个单位，发生急性肾损伤的风险增加0.169倍。

四、结论

本研究采用条件logistic回归模型探讨急性肾损伤的危险因素。通过分析可知因变量对子数和自变量个数满足需求，变量之间不存在严重共线性和异常值，数据不存在完全分离现象。满足条件logistic回归分析条件。

条件logistic回归分析结果提示，所建立的模型有统计学意义(χ²=66.30，P<0.001)。三个自变量经过分析后发现均有统计学意义，其中BMI偏瘦发生急性肾损伤的风险是超重的0.201倍 (95%CI：0.060~0.680；P=0.010)；急性肾损伤风险随着Cr的增高而增加，Cr每增高一个单位发生风险增加0.011倍 (95%CI：0.006~0.017；P<0.001)；急性肾损伤风险随着Lacate的增高而增加，Lacate每增高一个单位发生风险增加0.169倍 (95%CI：0.029~0.329；P=0.017)。

End

无序多分类Logistic回归分析(Multinomial Logistic Regression Analysis)——Stata软件实现

泊松回归分析(Poisson Regression Analysis)——Stata软件实现

文章目录 沉浸式阅读