关键词:Probit回归; 概率单位回归; 理论介绍
一、理论介绍
与logistic回归类似,Probit回归也是拟合0-1型因变量的回归方法,把取值分布在实数范围的变量通过累积概率函数转换成分布在(0,1)区间的概率值。Probit回归的链接函数可以使用logit累积概率函数,也可以采用标准正态分布的累积概率函数的反函数Φ-1,即Probit函数。
在logistic回归模型部分(二分类logistic回归分析(Binomial Logistic Regression Analysis)——理论介绍)已介绍logit变换与logistic回归模型:
\(logit(P)=\ln \left(\frac{P}{1-P}\right)=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots \beta_{n} x_{n}\)经过简单变换,可以转换为logit累积概率值:
\(P=\frac{e^{\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\beta_{3} X_{3}+\cdots+\beta_{n} X_{n}}}{1+e^{\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\beta_{3} X_{3}+\cdots+\beta_{n} X_{n}}}\)与logistic回归类似,Probit变换与Probit回归模型如下:
\(\operatorname{Probit}(P)=\Phi^{-1}(\mathrm{P})=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots \beta_{n} x_{n}\)其累积概率函数,即标准正态累积概率函数为:
1. 单一解释变量
\(P_{i}=\Phi\left(\beta_{0}+\beta_{1} X_{i}\right)=\int_{-\infty}^{\beta_{0}+\beta_{1} X_{i}} \phi(Z) d t\)2. 多变量
\(P_{i}=\Phi\left(\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}\right)=\int_{-\infty}^{\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}} \phi(Z) d t\)上式中,
Φ为标准正态分布的概率分布函数,即累积分布函数(cumulative distribution function,CDF),可用于计算随机变量小于或等于某事件发生的概率,是已知横轴(某一事件)求纵轴(概率)的过程。通过将概率密度函数在定义域上进行积分求解获得。
∅为标准正态分布的概率密度函数,概率密度函数(probability density function,PDF)就是概率的密度,反应的是概率在某点处的“密集程度”,可以表示随机变量每个取值有多大的可能性。通过对概率累积函数求导可获得。
Φ-1是Φ的反函数,即Probit函数,也称百分点函数(percent point function,PPF)。给定概率P求相应累积分布的随机变量,是已知纵轴(概率)求横轴(某一事件)的过程。
二、Probit回归的应用
Probit回归主要用来测试分析刺激强度与反应比例之间的关系。如,对于指定数量的病人,分析他们的给药剂量与治愈比例之间的关系。此方法应用的最典型例子是分析杀虫剂浓度和杀死害虫数量之间的关系,并据此判断什么样的剂量浓度是最佳的。在医学研究,特别是毒理学、药理学研究中,经常需要计算半数致死剂量、半数有效剂量等剂量—反应关系等统计指标,其标准做法就是通过调用Probit过程进行统计分析。
Probit回归适用于对反应变量(因变量)为分类变量的资料进行统计分析,也存在反应变量为二分类、有序多分类和无序多分类3种情况,但目前最常用的是二分类的情形,SPSS只能处理反应变量为3分类的资料。对于有序多分类和无序多分类的资料,可以在相应的Logistic回归过程中将连接函数改为Probit即可得到相应的模型。
三、Probit回归与Logistic回归
Probit回归各自变量的偏回归系数βi意义为:其他自变量取值保持不变时,自变量i每改变一个单位,出现阳性结果的概率单元的改变量。β0代表自变量全部取值为0时的概率单元值。如果只有1个自变量,取值为0和1分别代表对照组和试验组,β0代表就是对照组的概率单元值,β1代表就是试验组与对照组的概率单元值的差值。
虽然对于相同数据用Probit回归与Logistic回归分析的结果非常接近,但后者比前者应用范围广泛得多。这是因为对于Logistic回归中的偏回归系数可以直接根据exp(β)计算效应量OR值,从而使其得到很好的解释与应用。而Probit回归模型中偏回归系数β的含义为,其他自变量取值保持不变时,自变量每改变一个单位出现阳性结果的概率密度函数值的改变量,显然这种解释远不如Logistic回归模型中系数的解释直观和有用。目前有很多针对Logistic回归模型的诊断及补救措施,而针对Probit回归则相对缺乏。还有学者建议,如果自变量中连续性变量较多,可以考虑使用Probit回归,如果自变量中分类变量较多,则可以考虑使用Logistic回归。
那么通过Probit回归中回归系数如何求OR值呢?
SPSS中概率密度函数值的计算可通过函数“Cdf.Normal(β,mean,sd)”实现,其中β为变量系数;mean为标准正态分布的平均值,即取0;st为标准正态分布的标准差,即取1。
Excel中的NORM.S.DIST(β,cumulative)也可快速求解,该函数返回标准正态分布函数值。β为变量系数;Cumulative 是决定函数形式的逻辑值,如果cumulative为TRUE,则NORMS.DIST返回累积分布函数值;如果为FALSE,则返回概率密度函数值。
在具体运用情景上,Probit分析主要用于实验室研究,分析重点是估计特定发生率所需的剂量,如LD50、ED50等;而Logistic回归更多地应用于观察性研究,如横断面调查、病例对照研究和队列研究,主要目的是评价各影响因素的危险度。