条件logistic回归分析(Conditional Logistic Regression Analysis)——Stata软件实现

发布于 2022年2月28日 星期一 11:11:46 浏览:4415
原创不易,转载请注明来源,感谢!
附件下载:
条件logistic回归.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章中介绍了条件logistic回归分析(Conditional Logistic Regression Analysis)的假设检验理论,本篇文章将实例演示在Stata软件中实现条件logistic回归分析的操作步骤。

关键词:Stata; 条件logistic回归; 配对logistic回归; 条件逻辑回归; 配对逻辑回归

一、案例介绍

某肾内科医师拟探究急性肾损伤的危险因素,回顾性收集了109例在院内发生急性肾损伤患者的性别、年龄、体质指数(BMI)、血肌酐(Cr)和血清乳酸(Serum Lactate),并根据性别和年龄进行1:1配对,收集了109例未发生肾损伤患者的相关信息,进行配对病例对照研究。“saki”为二分类变量,代表急性肾损伤发生情况(“发生”记录为“1”,“未发生”记录为“0”);“bmi”为有序多分类变量,代表体质指数(“偏瘦”为“1”,“正常”为“2”,“超重”为“3”);“cr”和“lactate”都为连续变量,分别表示血肌酐和血清乳酸含量;“subclass”为多分类变量,表示对子数。部分数据见图1。本文案例可从“附件下载”处下载。

图1

二、问题分析

本案例的分析目的是探讨急性肾损伤的危险因素,采用配对设计,研究多个因素对二分类因变量的影响,可以采用条件logistic回归分析。但需要满足7个条件:

条件1:因变量为二分类变量。本研究中因变量是是否发生急性肾损伤“是”和“否”,为二分类变量,该条件满足。

条件2:至少有1个自变量。自变量可以是分类变量也可以是连续变量。本研究中有多个自变量,类型各异,该条件满足。

条件3:观察变量为配对设计。本研究中,两组患者是根据性别和年龄进行1:1配对,该条件满足。

条件4:因变量对子数为自变量个数的10~15倍(EPV原则),最好>30对,自变量的参照水平组不应少于30或50例。该条件需要通过软件分析后判断。

条件5:自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件6:自变量不存在显著的异常值。该条件需要通过软件分析后判断。

条件7:数据未出现完全分离或拟完全分离现象。该条件需要通过软件分析后判断。

三、软件操作及结果解读

(一) 适用条件判断

1. 条件4判断(因变量样本例数)

(1) 软件操作

*查看因变量各水平的例数*

tab saki

图2
(2) 结果解读

由图2可见,“1”代表“发生急性肾损伤”,“0”代表“未发生急性肾损伤”,两组均为109例,即109对。根据“因变量对子数为自变量个数的10~15倍(EPV原则) ”,本案例可纳入7~11个自变量进行多因素条件logistic回归分析。

2. 条件4判断(自变量样本例数)

(1) 软件操作

*查看多分类变量bmi和因变量各水平组合下的例数*

tab saki bmi

图3
(2) 结果解读

由图3结果可知,“BMI”水平为“1”偏瘦时,因变量的例数<30,如果该变量在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照。

3. 条件5判断(多重共线性诊断)

容忍度(Tolerance)或方差膨胀因子(VIF)可以用来诊断自变量之间的多重共线性。在Stata中可以通过线性回归来获得。

(1) 软件操作

*拟合线性回归模型*

regress saki ib3.bmi cr lactate

*计算VIF和方差膨胀因子*

vif

图4
(2) 结果解读

如果“Tolerance(容忍度)”小于0.1或“VIF(方差膨胀因子)”大于10,则表示有严重共线性存在。根据图4结果可知,本例中,容忍度均远大于0.1,方差膨胀因子均小于10,所以不存在严重多重共线性。本研究数据满足条件5。

4. 条件6判断(异常值检测)

(1) 软件操作

*计算库克距离*

predict cook, cooksd
summarize cook
图5
(2) 结果解读

使用库克距离来判断强影响点是否为因变量的异常值点。一般认为当D<0.5时不是异常值点,当D>0.5时是异常值点。图5结果显示,本案例最大库克距离为0.336<0.5,提示不存在显著异常值,本研究数据满足条件6。

5. 条件7判断(完全分离检测)

完全分离,指某一个自变量本身或者某几个自变量的线性组合,对因变量的预测结果与实际情况完全一致,常表现为OR值无穷大。通过图3可见并不存在完全分离。该条件满足。

(二) 条件logistic回归分析

1. 软件操作

根据上面的分析可知,“BMI”水平为“1”(偏瘦)时,因变量的例数<30,该变量在多因素分析过程中进入模型,应注意避免例数较少的水平被选为参照,故在模型中选择“BMI”水平为“3”(超重)作为参照。结果见图6。

*拟合回归模型*

clogit saki ib3.bmi cr lactate, group(subclass) or

图6

2. 结果解读

图6列出了条件logistic回归分析的结果,可知,模型整体检验χ²=66.30,P<0.001,提示模型有统计学意义,说明模型纳入的自变量中至少有一个有统计学意义。BMI=1(偏瘦)的OR=0.201,P=0.010,说明BMI偏瘦和BMI超重之间的差异具有统计学意义,偏瘦发生急性肾损伤的风险是超重者的0.201倍 (95%CI:0.060~0.680)(将0.201取倒数,即为超重组发生急性肾损伤的风险是偏瘦组的4.98倍);BMI=2(中等)的OR=0.690,P=0.401>0.05,说明BMI中等和BMI超重者之间的差异无统计学意义。Cr组和Lacate组的OR值分别为1.011 (95%CI:1.006~1.017;P<0.001)和1.169(95%CI:1.029~1.329;P=0.017),均大于1,说明急性肾损伤风险随着Cr和Lacate的增高而增加,Cr每增高一个单位,发生急性肾损伤的风险增加0.011倍;Lacate每增高一个单位,发生急性肾损伤的风险增加0.169倍。

四、结论

本研究采用条件logistic回归模型探讨急性肾损伤的危险因素。通过分析可知因变量对子数和自变量个数满足需求,变量之间不存在严重共线性和异常值,数据不存在完全分离现象。满足条件logistic回归分析条件。

条件logistic回归分析结果提示,所建立的模型有统计学意义(χ²=66.30,P<0.001)。三个自变量经过分析后发现均有统计学意义,其中BMI偏瘦发生急性肾损伤的风险是超重的0.201倍 (95%CI:0.060~0.680;P=0.010);急性肾损伤风险随着Cr的增高而增加,Cr每增高一个单位发生风险增加0.011倍 (95%CI:0.006~0.017;P<0.001);急性肾损伤风险随着Lacate的增高而增加,Lacate每增高一个单位发生风险增加0.169倍 (95%CI:0.029~0.329;P=0.017)。

End
文章目录 沉浸式阅读