Probit回归与Logistic回归的比较——SPSS软件实现

发布于 2023年1月8日 星期日 17:18:41 浏览:2297
原创不易,转载请注明来源,感谢!
附件下载:
1673169403-Probit回归与Logistic回归比较.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

在前面文章介绍了Probit回归的相关理论(Probit回归的理论介绍),其中提到对同一份数据使用Probit回归与Logistic回归分析结果非常接近。本文在SPSS软件中实例演示使用两种回归分析结果的比较。

关键词:SPSS; Probit回归; 概率单位回归; Logistic回归

一、案例数据介绍

某项病例对照研究分析年龄对疾病预后的影响。部分数据见图1,其中age为年龄,0=60岁以下,1=60岁及以上;predict为预后,0=预后良好,1=预后不良;total为虚拟实测总数,赋值全部为1。本案例数据可从“附件下载”处下载。

图1

二、在二分类Logistic回归模块中执行Logistic回归分析

在非条件二分类Logistic回归模块中对数据进行分析,具体操作参照“二分类Logistic回归分析(Binomial Logistic Regression Analysis)——SPSS软件实现”。主要结果见图2。

图2

三、在Probit回归分析模块中执行Logistic回归分析

(一) 软件操作

选择“分析”—“回归”—“概率”(图3)。

图3

打开“概率分析”对话框(图4),将predict选入“响应频率”,将total选入“实测值总数”,将age选入“协变量”,“转换”不做选择,“模型”下选择默认的“分对数(Logit)”(即Logistic回归),“选项”保持默认。

图4

(二) 结果解读

图5分析结果和图2在二分类Logistic回归模块中执行Logistic回归分析结果系数完全一样,表明两个模块计算过程相同。只是在Probit回归分析模块中执行Logistic回归分析不会生成效应量OR值及其95%CI

图5

四、在Probit回归分析模块中执行Probit回归分析

(一) 软件操作

选择“分析”—“回归”—“概率”(图3)。

打开“概率分析”对话框(图6),将predict选入“响应频率”,将total选入“实测值总数”,将age选入“协变量”,“转换”不做选择,“模型”下选择默认的“概率”(即Probit回归),“选项”保持默认。

图6

(二) 结果解读

由图7分析结果可知,Probit回归分析的变量系数检验P值和Logistic回归一样,但是偏回归系数则不相同。这主要是因为两种方法里面,偏回归系数的意义不同。Probit回归中,年龄的偏回归系数为0.774,表示与60岁以下者相比,60岁及以上者预后不良的概率密度函数值增加0.774。

图7

通过Probit回归中系数求OR值:

在SPSS中概率密度函数值的计算可通过函数“Cdf.Normal(β,mean,sd)”实现,其中β为变量系数;mean为标准正态分布的平均值,即取0;st为标准正态分布的标准差,即取1。

Excel中的NORM.S.DIST(β,cumulative)也可快速求解,该函数返回标准正态分布函数值。β为变量系数;Cumulative 是决定函数形式的逻辑值,如果cumulative为TRUE,则NORMS.DIST返回累积分布函数值;如果为FALSE,则返回概率密度函数值。

如计算60岁以下者预后不良的概率密度函数值,SPSS操作见图8。

图8

excel中代码为“=NORM.S.DIST(-0.590466,TRUE)”,可得到:

P60岁以下(-0.590466)= 0.277439137

同样可得到60岁及以上者预后不良的概率密度函数值:

P60岁及以上(-0.590466+ 0.774271)= 0.572916783

OR值为:

[0.572916783/(1-0.572916783)]/[0.277439137/(1-0.277439137)] = 3.493701。Logistic回归计算的OR值为3.493701,证明两种方法结果一致。

五、结论

Probit回归与Logistic回归均可用于二分类结局变量的数据分析,在二分类Logistic回归模块中执行Logistic回归分析与在Probit回归分析模块中执行Logistic回归分析结果完全一样;Probit回归分析与Logistic回归分析结果一致。

六、知识小贴士

  • 虚拟实测总数:SPSS默认是对频数表资料进行Probit回归分析,但是原始数据并非频数表资料,每一个案例表示一个观察对象,因此为了软件计算需要,需制定一个频数变量,即虚拟实测总数。
  • 应用范围:虽然对于相同数据用Probit回归与Logistic回归分析的结果非常接近,但后者比前者应用范围广泛得多。这是因为对于Logistic回归中的偏回归系数可以直接根据exp(β)计算效应量OR值,从而使其得到很好的解释与应用。而Probit回归模型中偏回归系数β的含义为,其他自变量取值保持不变时,自变量每改变一个单位出现阳性结果的概率密度函数值的改变量,显然这种解释远不如Logistic回归模型中系数的解释直观和有用。目前有很多针对Logistic回归模型的诊断及补救措施,而针对Probit回归则相对缺乏。还有学者建议,如果自变量中连续性变量较多,可以考虑使用Probit回归,如果自变量中分类变量较多,则可以考虑使用Logistic回归。
  • 运用情景:Probit分析主要用于实验室研究,分析重点是估计特定发生率所需的剂量,如LD50、ED50等;而Logistic回归更多地应用于观察性研究,如横断面调查、病例对照研究和队列研究,主要目的是评价各影响因素的危险度。

End
文章目录 沉浸式阅读